Q1: 请问集群的slurm是否没有安装pmix支持?nvidia提供的镜像,应该需要--mpi=pmix来启动。 在交互作业调试: 如果不加--mpi=pmix可以启动,但是HPL会报错。 Q2: 单卡不报错,多卡不行,应该需要在哪里引入mpi环境。
黄居耀 Answer 1 : 支持。 Answer 2: 在容器里试试mpirun。
黄居耀 在容器里mpirun后,镜像里是用一个脚本包着numactl启动的。 可以运行。