SLURM术语表¶
- 队列或分区 (partition)¶
对节点的逻辑分组,可设置资源限制、访问权限、优先级等。分区可重叠,提供类似于队列的功能 。使用分区名字标识,如CPU、GPU等
- 节点 (node)¶
通常对应集群中的一台物理机。节点含处理器、内存、磁盘空间等资源,具有空闲、分配、故障等状态。通常以字母+数字的方式编号,如
n102
。- 作业 (job)¶
一次资源分配。通过
salloc
、sbatch
和srun
命令提交到一个队列中。不能跨队列提交。由调度管理系统排队调度后分配资源运行。通过作业ID标识,如123
。- 作业步 (jobstep)¶
通过
srun
进行的任务加载,一个作业 (job)可包含多个作业步,可并发运行。作业步可只使用作业中的部分节点。在作业内通过作业步ID标识,如123.0
。- 任务数 (task)¶
单个作业或作业步可有多个任务。一般一个任务需一个CPU核, 可理解为所需的CPU核数。
- CPU插槽 (socket)¶
CPU插槽数,可以简单理解为CPU颗数。单个CPU颗数中有多个CPU核。
- CPU核 (core)¶
单颗CPU可以具有多颗CPU核。