跳到主要内容

作业提交与管理(HPC一期)

作业提交

提示

作业默认最长运行7天,到期前可手动在平台延长7天。操作参考:作业延长

提交普通作业(命令行模式)

用户可以使用jsub <params> <job_name>命令提交作业,并指定参数

params示例
-q gpu:指定gpu队列,队列信息请查看:资源队列/分区
-i input.sh:指定作业输入文件
-o output_%J.txt:指定作业标准输出文件,%J为作业号
-e err_%J.txt:指定作业标准错误输出文件
-n 8:指定CPU总核心数
-gpgpu 1:指定GPU卡数
-m "g-node01 g-node02":指定g-node01和g-node02节点 -m "~g-node03":排除g-node03节点
-cwd /apps:指定作业执行路径为/apps;默认情况下,没有-cwd 选项时,作业的执行路径为作业的提交路径

提交普通作业(脚本模式)

除命令行提交外,用户可以通过脚本提交模式提交作业,方便用户管理作业提交参数和相关作业参数配置。将提交时需要指定的参数写到脚本中,用户可以批量重复使用该脚本,不用每次都指定参数。

  • 脚本格式(my_job.sh):
my_job.sh
#!/bin/sh
#BSUB -J my_job
#BSUB -q queue_name
#BSUB -o output_%J.txt
#BSUB -e err_%J.txt
python script.py arg1 arg2
  • 脚本提交:jsub my_job.sh

提交数组作业

用户可使用jsub -J [start_idx-end_idx]提交数组作业,以共享相同的可执行文件和资源需求,但是具有不同的输入文件和输出文件。

示例
$ jsub -J job[1-20] -i input%J_%I -o output%J_%I myjob

提交交互式作业

用户可使用jsub -I提交交互式作业。交互式作业是一种类前端作业,虽然作业在后端(某一计算节点)执行,但执行的过程和输出会实时呈现到用户提交端,在这一过程中用户也可以参与其中,进行必要的人机交互。

示例
$ jsub -I -n 8 -gpgpu 1 bash

作业查看与管理(命令行)

查看用户作业(等待、运行、挂起)

$ jjobs -u <username>

查看用户历史作业

$ jhist -u username

查看作业详情

$ jjobs -l jobid

查看数组作业

$ jjobs -A

查看作业PEND信息

$ jjobs -p 

挂起作业

$ jctrl stop jobId

恢复作业

$ jctrl resume jobId

终止作业

$ jctrl kill jobId

作业查看与管理(WEB)

查看用户作业

登录HPC平台门户 --- 我的作业 --- 选择Phase-I_HPC-X86_NVIDIA (unischeduler) alt text

查看作业详情

点击作业号,查看对应作业详情 alt text

终止作业

选择对应作业,查看对应作业详情 alt text