P
patata 发布的帖子
-
资源限制:注意事项
资源限制【如需增加时长以及节点数,请联系商务购买正式计算队列】:
-
q_sw_expr队列为国产计算资源测试队列
- 该队列仅能够持续运行作业1小时,超时被杀
- 该队列最大提交节点数为16个节点,即16*4核心登录到登陆节点上
- 该队列仅为测试使用,禁止大量提交作业
- 注:测试队列对用户交题的节点数有限制,大量交题并无意义,且会造成任务调度系统缓慢
-
q_x86_expr队列为x86处理器架构测试队列
- 该队列仅能够持续运行作业1小时,超时被杀
- 该队列最大提交节点数为3个节点,即24*3 核心
- 该队列最大提交节点数为3个节点,即24*3 核心
- 注:测试队列对用户交题的节点数有限制,大量交题并无意义,且会造成任务调度系统缓慢
-
通过qload -w看到节点状态不正确
-
查看节点状态,强烈建议使用cnload -c cpuid
-
节点处于softft/hartft/down/boot为异常状态
-
节点处于N/A|BUSY|SBUSY|sleep|sleeping为正常状态
-
-
按照jobid查看节点状态
按照jobid查看节点状态:
-
bjobs回车,查看jobid占用的节点,复制cpuid,通过cnload -c jobid查看节点CPU,内存,负载状态
-
cnload -c $(bjobnodes jobid),节点状态
-
-
计算资源查看:节点状态
查看online1/2存储使用情况【注:在登陆节点psn查询】:
-
cnload -c 节点号,如:cnload -c 1,2-10,20
-
cnload -c 节点号 -l(小写L)
-
节点正常状态:sleep|sleeping|wakeup|idle|busy|N/A|SBUSY
-
节点异常状态:down|hardft|softft|init|boot
-
-
计算资源查看:可用队列
查看可提交作业的队列:
-
qload -w
- q_sw_*** 表示国产计算平台队列
- q_x86_*** 表示商用计算平台队列
- CONFIG: 队列总节点个数; IDLE: 队列空闲节点个数;BUSY: 队列已占用节点个数;sleep: 队列休眠节点个数(可用)
-
qload -w -l (小写L)
- 正式队列可使用节点数
- 国产:节点2048,核心2048 x 4
- 商用:节点50,核心50 x 24
- 正式队列可使用节点数
-
-
存储资源查看:GPFS
查看GPFS存储使用情况【注:在登陆节点bsn查询】:
-
mmlsquota -u username【查看用户存储使用情况】
-
mmlsquota -g groupname【查看组存储使用情况】
-
-
存储资源查看:online1/2
查看online1/2存储使用情况【注:在登陆节点psn查询】:
-
lfs quota -h -u username /home/export/online1【查看用户的online1存储使用】
-
lfs quota -h -u username /home/export/online2【查看用户的online2存储使用】
-
lfs quota -h -g groupname /home/export/online1【查看组的online1存储使用】
-
lfs quota -h -g groupname /home/export/online2【查看组的online2存储使用】
-