作业相关问题及排查
1. 作业一直在排队无法运行
查看排队作业:squeue
[slurmtest@login02 ~]$ squeue
JOBID PARTITION NAME USER ST TIME NODES NODELIST(REASON)
8977234 test TF_Datas slurmtest PD 1 (AssocGrpCpuLimit)
8977235 test TF_Datas slurmtest PD 1 (Resource)
Reason为AssocGrpCpuLimit的作业:
原因:AssocGrpCpuLimit的提示信息表示该作业的使用核心数超过了该用户的限额
解决方案:请取消该作业(scancel 作业ID)并尝试减少作业脚本中占用核心数后重新提交
Reason为Resource的可用如下步骤排查:
1.sinfo | grep
2.scontrol show job 8977235 查看作业中申请的节点数,核心数,内存数等信息
3.确认队列中剩余的节点数,核心数,内存数是否大于作业中申请的数量:
如果还有可用资源,但是小于作业中申请的数量,则需要继续登录该作业
如果剩余的资源大于作业中申请的,但是作业还是不运行,则需要联系管理员查看
2. 提交作业时报错
在E-Shell中提交作业时,有如下报错时:
error: Unable to allocate resources: Invalid account or account/partition combination specified
解决方案:该报错是因为没有使用正确的可访问队列,需要在“概览”中的可访问队列查看您可用的队列名,提交作业时指定该队列
sbatch -p <PARTITION> 脚本名称