作业提交与管理(HPC一期)
作业提交
提示
作业默认最长运行7天,到期前可手动在平台延长7天。操作参考:作业延长
提交普通作业(命令行模式)
用户可以使用jsub <params> <job_name>
命令提交作业,并指定参数
params示例 :
-q gpu:指定gpu队列,队列信息请查看:资源队列/分区
-i input.sh:指定作业输入文件
-o output_%J.txt:指定作业标准输出文件,%J为作业号
-e err_%J.txt:指定作业标准错误输出文件
-n 8:指定CPU总核心数
-gpgpu 1:指定GPU卡数
-m "g-node01 g-node02":指定g-node01和g-node02节点
-m "~g-node03":排除g-node03节点
-cwd /apps:指定作业执行路径为/apps;默认情况下,没有-cwd 选项时,作业的执行路径为作业的提交路径
提交普通作业(脚本模式)
除命令行提交外,用户可以通过脚本提交模式提交作业,方便用户管理作业提交参数和相关作业参数配置。将提交时需要指定的参数写到脚本中,用户可以批量重复使用该脚本,不用每次都指定参数。
- 脚本格式(my_job.sh):
my_job.sh
#!/bin/sh
#BSUB -J my_job
#BSUB -q queue_name
#BSUB -o output_%J.txt
#BSUB -e err_%J.txt
python script.py arg1 arg2
- 脚本提交:
jsub my_job.sh
提交数组作业
用户可使用jsub -J [start_idx-end_idx]
提交数组作业,以共享相同的可执行文件和资源需求,但是具有不同的输入文件和输出文件。
示例
$ jsub -J job[1-20] -i input%J_%I -o output%J_%I myjob
提交交互式作业
用户可使用jsub -I
提交交互式作业。交互式作业是一种类前端作业,虽然作业在后端(某一计算节点)执行,但执行的过程和输出会实时呈现到用户提交端,在这一过程中用户也可以参与其中,进行必要的人机交互。
示例
$ jsub -I -n 8 -gpgpu 1 bash
作业查看与管理(命令行)
查看用户作业(等待、运行、挂起)
$ jjobs -u <username>
查看用户历史作业
$ jhist -u username
查看作业详情
$ jjobs -l jobid
查看数组作业
$ jjobs -A
查看作业PEND信息
$ jjobs -p
挂起作业
$ jctrl stop jobId
恢复作业
$ jctrl resume jobId
终止作业
$ jctrl kill jobId
作业查看与管理(WEB)
查看用户作业
登录HPC平台门户 --- 我的作业 --- 选择Phase-I_HPC-X86_NVIDIA (unischeduler)
查看作业详情
点击作业号,查看对应作业详情
终止作业
选择对应作业,查看对应作业详情