上海科技大学生物电镜高性能计算平台管理暂行规定

发布者:刘丹丹发布时间:2020-09-17浏览次数:34

冻电镜高性能计算平台包括预处理集群与图信中心集群。预处理集群进行电镜数据的预处理操作,图信中心集群进行高性能电镜数据处理。图信集群共有80CPU计算节点,每个节点配备两个Intel Xeon E5-2690 V4处理器,共计2240个处理器核;22GPU节点,分别配备了四卡P100和四卡P40;此外还配备了一个2TB的大内存胖节点。图信集群的CPU理论单精度浮点峰值计算性能达到120.4TFlopsGPU的理论单精度浮点计算峰值达966.4TFlops;存储可用总容量达3.5PB

 

1.  图信中心集群计算资源的队列设置

1.1目前针对电镜数据设置的缺省队列如下:



队列名含节点数节点关键参数
CPU110核数14*2/节点
CPU810核数14*2/节点
GPU_A84*P100/节点
GPU_B64*P40/节点
cryosparc114*P100/节点
cryosparc214*P100/节点
FAT164个核/2TB内存


 

高性能计算集群中电镜数据计算资源目前只提供给使用高端电镜收数据的课题组使用。

 

1.2 针对计算生物方向的数据处理有八个GPU节点,目前挂靠在平台与电镜集群统一管理,但所有权归计算生物课题组,分为一个单独队列:

队列名

含节点数

节点关键参数

GPU_2

8

4*P100/节点

 

 

 


1.3 2020810日召开电镜管理委员会会议,通过了集群资源的收费政策,自202111日开始执行。计算资源部分的收费标准如下:

节点类型

CPU

GPU_A

GPU_B

FAT

收费标准

0.04/核时

7.5/节点时

5/节点时

2.5/节点时

 

2.  关于集群账号的规定


2.1 集群账号

2.1.1集群账号命名规则:

集群中账号以用户的校园网邮箱名字命名,如用户的校园网邮箱为xyz@shanghaitech.edu.cn,则申请集群账号为xyz,如此可以保证账号的唯一性。

 

2.1.2集群账号的申请方式:

有使用集群需求的用户使用校内邮箱发送申请邮件到平台公共邮箱Bio-EM@shanghaitech.edu.cn,邮件主题标明“申请集群账号”,并在邮件中注明学院/所、课题组以及计算需求。如课题组内学生替PI申请,需同时抄送PI,集群管理员收到PI回复同意的邮件后建立账号并发送账号信息到与账号同名的校内邮箱。

 

2.2 cryoSPARC节点账号

2.2.1 cryoSPARC节点账号命名规则:

账号以用户的校园网邮箱命名,如用户的校园网邮箱为xyz@shanghaitech.edu.cn,则申请cryoSPARC节点账号为xyz@shanghaitech.edu.cn,如此可以保证账号的唯一性。

 

2.2.2 cryoSPARC节点账号的申请方式:

有使用cryoSPARC节点需求的用户使用校内邮箱发送申请邮件到平台公共邮箱Bio-EM@shanghaitech.edu.cn,并同时抄送所在课题组PI,邮件主题标明“申请cryoSPARC节点账号”,并在邮件中注明学院/所、课题组,集群管理员在收到PI回复同意的邮件后建立账号并发送账号信息到与账号同名的校内邮箱并抄送PI

 

2.3集群账号的使用:

2.3.1  2019716日电镜平台管理委员会会议决定每个课题组共用PI账号,自此,电镜处理集群账号使用规则是同一课题组成员统一使用所在课题组PI的账号。

2.3.2 用户在预处理集群与图信集群上有相同名称的集群账号,在预处理集群上账号仅用来运行预处理程序;在图信集群上,用户账号用来做数据处理以及提交作业。

2.3.3 用户要及时更改集群账号的初始密码,并妥善保管账号密码,如因密码泄露导致的数据丢失或损坏由用户自行承担。

2.3.4 用户需要遵守集群使用的规范,不得在管理节点上运行作业程序,否则管理员有权提出警告,如用户连续三次违反规定将剥夺提交作业权限。

 

3.  关于集群中数据存储的管理规定:

目前预处理存储提供可用容量为600TB的空间,图信中心主集群存储(后文称为主存储)提供可用容量为3.5PB的空间。预处理存储用来临时存放收集的原始电镜数据及做数据预处理,原始数据被实时同步到图信中心的主存储。主存储是所有集群用户的公有资源,不仅存储原始数据,还用来做数据处理以及存储处理的结果数据。由于容量有限,需要各用户珍惜使用。

3.1 集群存储中的数据存放路径为:/home/用户名/EM_data/日期+名字标识的文件夹,其中“用户名”指用户账号,如/home/xyz/EM_data/20200525_abc文件夹存储了用户账户xyx2020525日收集的电镜数据,收集人abc。用户收集数据时按照上述规则命名存储文件夹。

 

3.2 数据存储的管理:

3.2.1 预处理存储的空间作为数据的中转空间,需要管理员经常清理,一般会保留近三个月的数据。

3.2.2 为了避免存储空间的无效占用,用户需及时清理主存储中由于计算产生的Trash数据及重复数据。

3.2.3 用户课题在文章发表之后需要将除原始数据之外的数据从主存储中清除。

3.2.4 用户需要自觉地及时地备份主存储中的原始数据,用户通过文件传输服务器将数据拷贝到移动硬盘设备中。如果用户没有及时备份的情况下,由于集群存储出现硬件故障导致数据丢失或损坏,则用户自己承担数据损失的责任。

3.2.5 由于使用电镜的课题组众多,存储空间将会日益紧张,为了保证电镜数据收集及同步能正常进行,主存储的数据益控制在85%以下,数据达到该比例,管理员将会做清理工作,按照时间顺序从最早的数据开始清理,清理之前会与用户确认是否用户已备份。

3.2.6 使用client账户的外部用户的数据,自收数据日起,在预处理存储和图信存储中分别保留三个月及二个月时间,电镜管理员在外部用户收数据时需告知该期限。

3.2.7 2020810日召开电镜管理委员会会议,通过了集群资源的收费政策,自202111日开始执行。存储部分的收费标准如下:

校内用户每个账号50TB及以下免费,最高配额不得超过200TB。采取分级计费方式,具体价格见下表:

存储用量

价格

50TB

0

50TB-100TB

100// TB

100TB-150TB

200// TB

150TB-200TB

400//TB

>200TB

800//TB

 

4.  计算资源限制以及优先级的设置与管理:

4.1 计算资源限制规则:

由于GPU节点计算资源有限,为了保证用户公平的使用资源,目前集群对一些队列设置了一定的资源限制规则:GPU_A队列每个用户账号最多同时使用8张卡,每个队列最多提交两个作业。

管理员可以根据资源的使用频率,微调资源限制规则,如假期期间,如果使用的课题组较少,可以适当放宽限制,以免产生虽有空余资源但计算任务重的课题组无法使用的情况。

4.2 计算资源优先占用的设置规则:

  如课题组从事的课题研究具有非常重要的意义,并有很强的时效性,可以向电镜管理领导小组申请部分计算资源优先占用或独享占用,经领导小组批准后,由管理员做相应设置,并通过平台公共邮箱发邮件通知所有用户资源变动情况。

一般优先或独享占用的时间不能超过一个月,如果一个月时间计算任务不能完成,申请课题组需在一个月时间结束前提前向领导小组重新提交申请,重新获得批准后方可继续延长使用特权。