slurm 作业管理
显示队列、节点信息:sinfo
HPC AI融合智算中心平台队列(二期) | |||
---|---|---|---|
队列类型 | 队列名称 | 资源 | 配置说明 |
CPU节点计算池 | i64m512u(共享)、i64m512ue(独享) | 110台 CPU: Intel 2*8358P,32C, 2.6GHz Memory:512GB System Disk: SSD 2*960GB OS:Ubuntu | 限时7天,用户账号总共使用1024核 |
i64m512r(共享)、i64m512re(独享) | 30台 CPU: Intel 2*8358P,32C, 2.6GHz Memory:512GB System Disk: SSD 2*960GB Data Disk:SSD 6*1.92 TB OS:Redhat | 限时7天,用户账号总共使用128核 | |
a128m512u(共享)、a128m512ue(独享) | 20台 CPU: 2*AMD 7763,64C, 2.45GHz Memory:512GB System Disk: SSD 2*960GB OS:Ubuntu | (a128m512u)限时7天,用户总共使用256核 (a128m512ue)限时7天,用户总共使用128核 | |
long_cpu | 与 i64m512u 队列的资源共用 | 限时14天,用户总共使用1024核 | |
大内存节点计算池 | i96m3tu(共享)、i96m3tue(独享) | 6台 CPU: Intel 2*6348H,24C, 2.3GHz Memory:3072GB System Disk: SSD 2*960GB OS:Ubuntu | 限时7天,用户总共使用192核 |
CPU应急队列资源 | emergency_cpu | 与i64m512u队列的资源共用 | 限时14天,用户总共使用512核 |
GPU节点计算池 | i64m1tga800u(共享)、i64m1tga800ue(独享) | 50台 Host: gpu1-[1-65] CPU: Intel 2*8358P,32C, 2.6GHz Memory: 1024GB GPU: 8*A800 System Disk: SSD 2*960GB OS:Ubuntu 15台 Host: gpu2-[1-15] CPU: Intel 2*8358P,32C, 2.6GHz Memory: 1024GB GPU: 8*A800 System Disk: SSD 2*960GB Data Disk:SSD 6*1.92 TB OS:Ubuntu | (i64m1tga800u)限时7天,用户总共使用128核,用户总共使用GPU 16卡 (i64m1tga800ue)限时7天,用户总共使用64核,用户总共使用GPU 8卡 |
i64m1tga40u(共享)、i64m1tga40ue(独享) | 14台 CPU: Intel 2*8358P,32C, 2.6GHz Memory:1024GB System Disk: SSD 2*960GB GPU: 8*A40 OS:Ubuntu | 限时7天,用户总共使用128核,用户总共使用GPU 16卡 | |
long_gpu | 与 i64m1tga800u 队列的资源共用 | 限时14天,用户总共使用128核,用户总共使用GPU 16卡 | |
GPU A800应急队列资源 | emergency_gpu | 与i64m1tga800u队列的资源共用 | 限时14天,用户总共使用64核,用户总共使用GPU 8卡 |
GPU A40应急队列资源 | emergency_gpua40 | 与i64m1tga40u队列的资源共用 | 限时7天,用户总共使用64核,用户总共使用GPU 8卡 |
Debug测试 | debug | 共6台,其中1台A40,5台CPU1 ①CPU: Intel 2*8358P,32C, 2.6GHz Memory:1024GB System Disk: SSD 2*960GB GPU: 8*A40 OS:Ubuntu ②CPU: Intel 2*8358P,32C, 2.6GHz Memory:512GB System Disk: SSD 2*960GB(这里5台从i64m512u调拨) OS:Ubuntu | 限时半小时,用户总共使用8核,用户总共使用GPU 1卡。 Debug CPU和GPU资源:适用用户对CPU、CUDA、软件的适配,代码的调试调优,针对特殊容器环境镜像调优及教学实训。 |
查看队列中的作业信息:squeue
查看详细分区(队列)信息:scontrol show partition
查看详细节点信息:scontrol show node
查看详细作业信息:scontrol show job $JOBID
查看作业动态输出:speek
注意:该命令不是slurm自带命令,是封装后的
终止作业:scancel job_id
挂起排队的作业: scontrol hold job_id