slurm命令学习

提交任务

1 交互模式:

srun 用于提交作业以便实时执行或启动作业步骤。 srun 有多种选项来指定资源要求,包括:最小和最大节点数,处理器数,要使用或不使用的特定节点,以及特定节点特征(如此多的内存,磁盘空间,某些必需的功能等) 。作业可以包含在作业节点分配中的独立或共享资源上顺序或并行执行的多个作业步骤

2 批量处理模式:

sbatch .sh* 自己最常用

3 分配模式

salloc 是节点资源抢占命令。 先提交资源分配请求,作业排队等待资源分配,作业开始,执行命令,命令结束,释放资源,停止作业。

查看自己的工作

squeue | grep ychen

或者 squeue –u ychen

squeue报告工作或工作步骤的状态。它具有各种过滤,排序和格式选项。默认情况下,它按优先级顺序报告正在运行的作业,然后按优先级顺序报告挂起的作业。

只显示排队和运行中的作业

image.png
image.png

停止自己的工作

scancel jobid

or
I删除自己的所有工作任务: scancel-u ychen

scancel用于取消挂起或正在运行的作业或作业步骤。它还可用于向与正在运行的作业或作业步骤相关联的所有进程发送任意信号。\

查看服务器

sinfo报告由Slurm管理的分区和节点的状态。它具有各种过滤,排序和格式选项。

挂起作业:

scontrol | suspend

暂时释放处理器资源, 节点被释放,可以分配给其他资源. 挂起正在运行的工作。job_list参数是逗号分隔的作业ID列表。使用resume命令恢复执行。用户进程必须在收到SIGSTOP信号后停止,并在收到SIGCONT后恢复,以使此操作生效。并非所有架构和配置都支持停职。如果重新排出暂停的工作,它将被置于保持状态。

其他一些命令

所有Slurm守护进程,命令和API函数都存在手册页。命令选项--help还提供了选项的简短摘要。请注意,命令选项都区分大小写。

sacct用于报告有关活动或已完成作业的作业或作业步骤会计信息。

salloc用于实时为作业分配资源。通常,这用于分配资源并生成shell。然后使用shell执行srun命令以启动并行任务。

sattach用于将标准输入,输出和错误加信号功能附加到当前正在运行的作业或作业步骤。可以多次附加和分离作业。

sbcast用于将文件从本地磁盘传输到分配给作业的节点上的本地磁盘。这可用于有效地使用无盘计算节点或相对于共享文件系统提供改进的性能。

scontrol是用于查看和/或修改Slurm状态的管理工具。请注意,许多 scontrol 命令只能以root用户身份执行。

smap报告由Slurm管理的作业,分区和节点的状态信息,但以图形方式显示反映网络拓扑的信息。

strigger用于设置,获取或查看事件触发器。事件触发器包括节点关闭或作业接近其时间限制等事件。

sview是一个图形用户界面,用于获取和更新Slurm管理的作业,分区和节点的状态信息。
pestat 查看节点

参考网站 :

中文:

https://www.hpccube.com/wiki/index.php/SLURM%E4%BD%BF%E7%94%A8%E5%9F%BA%E7%A1%80%E6%95%99%E7%A8%8B#.E6.9C.AF.E8.AF.AD.E4.B8.8E.E7.BC.A9.E7.95.A5.E8.AF.AD

CECI:生成提交任务的sh文件,针对不同的服务器均可。

https://support.ceci-hpc.be/doc/_contents/SubmittingJobs/SlurmFAQ.html

(0)

相关推荐