请问如果用salloc申请了两个单卡的interactive,但是都分配给了gpu3(相当于gpu 3上有两张卡分别对应了我的两个interactive进程),应该如何区分我使用的是gpu3的哪张卡呢?
time:24/5/14 19.59
黄居耀 代码里可以识别设备id 或者选择申请两张卡
黄居耀 接着的问题: 没有完全解决,后面重新连ssh之后,它显示2个卡合并了(也就是我nvidia-smi能看到两张卡),但是后来有一次ssh连,又变成单张了,有点随机。暂时没搞明白是什么机制。然后两张卡就到时释放了。
黄居耀 如果需要salloc几个一卡的任务,用salloc 直接启动命令,或者开启自定义的连接,不要用ssh连上去。
如果确实想ssh,可以在第一次salloc之后ssh上去,就是对应第一次的卡,然后不要关闭,再第二次salloc,这时候再ssh上去就是第二张卡。
也可以考虑用salloc启动tmux
黄居耀 回答: 这种情况下,建议一次申请2张GPU卡,通过 nvidia-smi -L 等命令获得2张卡的唯一id,然后在代码里分别指定2张卡的id来使用。
黄居耀 疑问: env里能看到slurm_job_id,ssh连接应该是最后一次任务的session,你是如何看到两张卡的? 回复: 我就是直接ssh到gpu3(我当时salloc分配的节点),然后nvidia-smi就是两张卡了。