Skip to main content

slurm 作业管理

显示队列、节点信息:sinfo

step1

HPC AI融合智算中心平台队列(二期)
队列类型队列名称资源配置说明
CPU节点计算池i64m512u(共享)、i64m512ue(独享)110台
CPU: Intel 2*8358P,32C, 2.6GHz Memory:512GB System Disk: SSD 2*960GB
OS:Ubuntu
限时7天,用户账号总共使用1024核
i64m512r(共享)、i64m512re(独享)30台
CPU: Intel 2*8358P,32C, 2.6GHz Memory:512GB System Disk: SSD 2*960GB Data Disk:SSD 6*1.92 TB
OS:Redhat
限时7天,用户账号总共使用128核
a128m512u(共享)、a128m512ue(独享)20台
CPU: 2*AMD 7763,64C, 2.45GHz Memory:512GB System Disk: SSD 2*960GB
OS:Ubuntu
(a128m512u)限时7天,用户总共使用256核
(a128m512ue)限时7天,用户总共使用128核
long_cpu与 i64m512u 队列的资源共用限时14天,用户总共使用1024核
大内存节点计算池i96m3tu(共享)、i96m3tue(独享)6台
CPU: Intel 2*6348H,24C, 2.3GHz Memory:3072GB System Disk: SSD 2*960GB
OS:Ubuntu
限时7天,用户总共使用192核
CPU应急队列资源emergency_cpu与i64m512u队列的资源共用限时14天,用户总共使用512核
GPU节点计算池i64m1tga800u(共享)、i64m1tga800ue(独享)50台
Host: gpu1-[1-65] CPU: Intel 2*8358P,32C, 2.6GHz Memory: 1024GB GPU: 8*A800 System Disk: SSD 2*960GB
OS:Ubuntu
15台
Host: gpu2-[1-15] CPU: Intel 2*8358P,32C, 2.6GHz Memory: 1024GB GPU: 8*A800 System Disk: SSD 2*960GB Data Disk:SSD 6*1.92 TB
OS:Ubuntu
(i64m1tga800u)限时7天,用户总共使用128核,用户总共使用GPU 16卡
(i64m1tga800ue)限时7天,用户总共使用64核,用户总共使用GPU 8卡
i64m1tga40u(共享)、i64m1tga40ue(独享)14台
CPU: Intel 2*8358P,32C, 2.6GHz
Memory:1024GB
System Disk: SSD 2*960GB
GPU: 8*A40
OS:Ubuntu
限时7天,用户总共使用128核,用户总共使用GPU 16卡
long_gpu与 i64m1tga800u
队列的资源共用
限时14天,用户总共使用128核,用户总共使用GPU 16卡
GPU A800应急队列资源emergency_gpu与i64m1tga800u队列的资源共用 限时14天,用户总共使用64核,用户总共使用GPU 8卡
GPU A40应急队列资源emergency_gpua40与i64m1tga40u队列的资源共用 限时7天,用户总共使用64核,用户总共使用GPU 8卡
Debug测试debug共6台,其中1台A40,5台CPU1
①CPU: Intel 2*8358P,32C, 2.6GHz Memory:1024GB System Disk: SSD 2*960GB GPU: 8*A40
OS:Ubuntu
②CPU: Intel 2*8358P,32C, 2.6GHz Memory:512GB System Disk: SSD 2*960GB(这里5台从i64m512u调拨)
OS:Ubuntu
限时半小时,用户总共使用8核,用户总共使用GPU 1卡。

Debug CPU和GPU资源:适用用户对CPU、CUDA、软件的适配,代码的调试调优,针对特殊容器环境镜像调优及教学实训。

查看队列中的作业信息:squeue

step2

查看详细分区(队列)信息:scontrol show partition

step3

查看详细节点信息:scontrol show node

step4

查看详细作业信息:scontrol show job $JOBID

step5

查看作业动态输出:speek

step6

注意:该命令不是slurm自带命令,是封装后的

终止作业:scancel job_id

step7

挂起排队的作业: scontrol hold job_id

step8 step8_2

继续排队中挂起作业:scontrol release _job_id

step9

挂起运行的作业:scontrol suspend job_id

step10

恢复挂起运行中的作业:scontrol resume job_id

step11