本板块全面涵盖平台从资源介绍、费用管理、实操操作到工具使用、问题解决的全流程关键内容,聚焦核心要点与实操逻辑,帮助用户快速吃透平台核心功能,高效开展计算作业,顺利上手各类算力资源与配套服务。
目前,超算平台硬件资源支撑科研教学方向和公共服务方向两大方向。 硬件资源详情
采用全面收费、公平排队的作业调度策略,平台共规划配置了7个资源池满足不同使用需求,配备A800、V100、RTX4090、RTX3090多款高性能计算芯片,除提供传统的公共集群外,同时提供了更易用户操作的容器资源池和虚机资源池。对节点进行分区管理,可灵活性的设置不同最长运行时间,不断优化资源在分区之间配比。不同资源池在芯片数量、互连速率、节点规模上差异显善,且计费方式目前分为付费和暂时免费两类。
采用免费公开、常期运行的资源供给策略,平台共规划配置了3个资源池满足公共服务需求,配备A800、V100高性能计算芯片,支撑UNTES AI-EMS智教平台、教育大模型公共服务平台,目前均为免费计费方式。
自2024年11月15日11时开始,北邮超算平台已开启收费运行模式,所有用户须先充值再使用,通过纵向项目(不包括GF纵向项目)的“测试化验加工费”科目或横向项目(包括GF横向项目)支付。
个人账户的余额可以直接支付用户本人的机时费用,包括:作业机时、实例机时、文件存储和块存储。
个人账户的余额也可以转入用户本人创建的项目账户,支付项目成员的机时费用。
充值流程如下:
校内教师用户完成付费机时充值之后,可以通过创建项目组并为项目账户转账的方式,将付费机时共享给项目组内学生使用。
超算平台为支持校内本科生和研究生参加各类竞赛及创新创业项目,可通过“信息门户-网上服务大厅-超算平台竞赛/创新创业项目算力申请表”提交申请,经相关部门审批后,可以免费提供一定额度的算力资源,仅用于申请时所填报的竞赛或项目,不得转让、出借,严禁用于虚拟货币 “挖矿” 等违规行为。
公共集群适合对Linux命令行和作业调度系统比较熟悉的用户。
北邮超算平台目前有两个公共集群:GPU集群、CPU集群,GPU集群包括2种分区:g078t、g125t,CPU集群包括2种分区:c003t、b006。
公共集群中通常包含一个登录节点(workstation)、一个头节点(head)和多个计算节点(gpuN或cpuN)。登录节点未配置GPU资源,仅供用户登录提交作业使用,故运行nvidia-smi时无回显,即无法调用GPU资源。
平台支持终端提交作业以及WEB页面提交作业。通过WEB页面提交集群作业,在提交作业前,先到“集群”-“分区”页面查看集群的不同队列资源情况,如果有不止一个队列,请根据队列的资源配置情况,在作业脚本中加上队列参数--partition=。终端Slurm作业提交通常分为交互式和批量式两种:交互式作业,用于代码编译、程序调试、交互式计算等工作;批量式作业,用于长期后台计算的任务,需要以作业脚本方式批量提交。详细作业提交方法,请查阅作业系统。
点击页面上方的“申请资源”进入资源库,按需创建实例,用于扣费的账户,可以选择从个人账户扣费,也可以选择从自己所属的项目账户扣费,停止实例后,如果没有“释放资源”,由于该实例会继续占用资源,因此系统会持续计费至该实例被释放。资源释放后,只要账号没有处于冻结状态,实例的数据不会被删除。释放后的实例可以从回收站内恢复,重新再启动使用。
分为个人实例和项目实例两类。
个人实例为用户独占的方式,任意用户均可创建且仅自身可见,分容器和虚机实例。适合个人短期测试,支持启停、延期、扩容等操作,可按需进行密码重置和配置修改;
项目实例面向项目组共享协作,仅项目管理员/组长可创建,全组成员可见可访问。适合多人长期协作,共建用户最长运行180天,普通用户5天,成员可通过共享目录协作,权限可按需设置。
平台提供个人目录、项目目录、公共集群目录三类存储空间,支持多种文件传输方式,可按需选择。
进入“工作台-数据总览”,选择对应位置,每次最多上传10个,下载1个。
由于Web传输文件功能有限,对于开放了SSH端口的集群或实例,用户可以通过SSH账户使用scp类的工具来传输数据。首次使用SSH登录的用户需要重置平台密码。用户在校内,能够直接访问平台服务IP地址的情况下,可以使用scp、WinSCP或Xmanager等scp工具来传输数据:scp -P 20139 some_data user@ssh_ip:/home/USERNAME/
Windows用户也可以使用XFTP客户端进行传输,主机选项中输入“服务ssh“显示的服务外部地址,端口号填写“服务ssh”中的端口号,协议使用默认的SFTP,用户名和密码填写平台的用户名和密码,连接成功后,用户访问的远程计算机路径为/home/username,即当前用户的家目录,用户可将文件从个人电脑上传输到共享文件夹内。
平台内用户可以登录平台管理自己的数据集,包括创建、修改、删除和下载等操作,并可以分享链接给平台和非平台用户访问。
数据集所占用的存储空间按照0.72元/TB/天的标准计费,用户处于“禁用”状态时数据集停止发布并停止计费,用户处于“冻结”状态或“启用”状态时数据集正常发布和正常计费。