电镜集群用户使用操作手册(2023年6月28日更新)

发布者:刘丹丹发布时间:2020-11-11浏览次数:1334

电镜集群用户计算资源配置

1管理/登录节点

  • ip10.15.56.103

  • 登录方法:

打开terminal终端软件,windows电脑推荐使用MobaXtermmaclinux电脑使用自带 terminal

-  通过云桌面登录或玻璃房support PC 登录:ssh 账号@10.15.56.103

-  通过校园网登录:ssh 账号@10.15.56.103 –p 10086

  • 注意事项:

      管理节点上

  • 允许: 

-  浏览/移动/拷贝/编辑 文件

-  编辑作业脚本

-  通过Slurm提交作业

-  检查作业状态

  • 不允许:

-  运行作业

-  多进程下载大量数据

2计算节点

  • CPU节点:16

-  每节点两个cpu,每节点含28个核

-  8个节点分为一个队列,分别为cpu-1cpu-2

  • GPU节点:8* 4P100节点 & 6* 4P40节点 & 19*4 卡A40节点。

-  P100卡的前6个节点为GPU-A队列,后两个节点分别为cryosparc1cryosparc2队列

-  P40节点,其他五个做为GPU-B队列,一个作为cryosparc3 队列

-  A40节点,16个作为GPU_C队列,其余三个分别为cryosparc_c-1,cryosparc_c-2,cryosparc_c-3队列


  • FAT节点:三个,

-  一个64核,2TB内存,队列名FAT

-  两个各64核,1TB内存,队列名BIG_MEM


修改账户密码的方法

为了数据安全考虑,用户在集群上的账户在首次登陆之后应该及时修改密码,修改密码有两种方式:

1,命令行方式:

使用passwd命令,首先用原密码登录账号,之后使用该命令按要求输入原密码及新密码即可。

2,集群管理系统方式:使用浏览器登录 https://10.15.56.103:9002

输入集群的用户账号以及密码,进入chess管理网页,在右上角账户下面选择修改密码,进行密码修改操作:

最后点击保存,至此集群账号密码修改成功。

建议用户养成定期修改密码的习惯,并且尽量选择比较复杂的密码,以保护所属数据的安全性。


用户提交作业方式

提交作业分为三种方式:CHESS平台提交、终端文本提交、应用软件UI界面提交。首先无论以何种方式提交作业,应用软件必须先安装在集群上。

常用的提交作业方式

-  终端文本提交

1.1 登录终端,使用mobaxterm 选择ssh 然后使用个人账户登录集群管理节点

1.2 编写提交脚本,脚本名称可以自定义,这里使用1.slurm

脚本内容为:


#! /bin/bash

#SBATCH     -J  test    ###指定作业名称

#SBATCH     -p  GPU-A   ### 指定队列名称

#SBATCH     -t  hh:mm:ss   ### 指定本次作业运行的最大时长

#SBATCH     --gres=gpu:tesla:x   ###指定使用gpu的个数,x为数字

#SBATCH     -n  x   ###指定使用的核数

#SBATCH     -N  x   ###指定使用的节点数

 

#Command

Mpirun    -n  x  --machinefile  ./host.txt     relion

 

 

 

1.3 提交作业

sbatch 1.slurm

输出的信息为:


1.4 查看作业,根据上面的输出查找对应的jobID

squeue

 

1.5 查看作业详情

scontrol  show  job <job_id>

 

1.6 删除指定作业

scancel   <job_id>

 

-  应用软件GUI界面提交

需要根据软件特性做相应配置,具体见后面几种常用软件提交作业用法。

四、relion在集群中的使用方法

目前集群中安装的relion版本有:relion2.0relion3.03relion3.1-beta,relion3.1.3,relion-4.0.1-cuda-11.6 (module load relion/4.0.1-cuda11.6; 只能使用GPU- C队列),可以使用module av命令查看可以调用的版本。

1、登录集群,调用relion相应模块

2、进入到数据所在的文件夹,调用relion注意:一定要cd到要计算的数据所在文件夹后再调用relion


提交作业方法:

a)      实例一:以其中一个3D classification任务为例,以下参数设置方法是使用GPU-A队列中的两个节点,并且申请所有的八张GPU卡。


关键参数:

Submit to queue? 一定要选Yes,如此该任务才会提交到计算节点上运行,否则会在管理节点运行。

如果申请一个GPU节点,相应参数改为:


b)实例2:以motion correction任务为例,以下任务申请两个GPU节点,使用8张卡



五、cisTEM在集群中的使用方法

-  登陆 管理节点 10.15.56.103,并运行:

module load cistem

cisTEM


之后打开已有project或者新建project,点击 左栏的 settings


 在打开的Gui窗口里设置settings

在左边窗口处点击 rename,将当前profile名字改为 slurm-sbatch(也可选用其他名字)

点击右边窗口的Specify按钮,分别将GUI AddressController Address 改为登陆节点IP: 10.15.56.103

双击Command下面的蓝条,可以进入编辑命令状态


编辑完命令,点击 OKGUI窗口内容此时如下:


4、此时点击右下角 save 保存。切记一定要保存,尤其首次使用cisTEM时,否则就会在管理节点上跑任务。

后续每次调整该提交命令中的参数之后都需点击 save

  • 提交作业命令示例1

sbatch –n 5 –c 1 –p cpu-2 --wrap=”home/software/cistem-1.0.0/$command”

No copies 4

命令含义:5个任务,每个任务使用1个核,在cpu-2队列上执行。

并复制4个提交命令,也即产生4个作业,有4个不同的jobid


使用如下命令可以查看队列cpu-2 上的使用核的情况

sinfo --format="%12P %.10n %.5T %.14C" |grep 'cpu-2'

显示:


  • 提交作业命令  多节点示例2

将提交作业的命令改为

sbatch –n 5 –c 2 –p cpu-2 --wrap="home/software/cistem-1.0.0/$command"

No copies 4

命令含义:5个任务,每个任务使用2个核,在队列cpu-2上执行。

产生四个jobid

每个作业使用10个核。4个作业使用40个核,因为每个节点28个核,所以提交任务后 squeue 显示分配2节点。

同样使用命令查看cpu-2上的使用核的情况

sinfo --format="%12P %.10n %.5T %.14C" |grep 'cpu-2'

显示:


六、cryoSPARC在集群中的使用方法

目前集群中有专门的三个节点   gpu-a-node07.chess  与  gpu-a-node08.chess , gpu-b-node06.chess 分别作为队列 cryosparc-1cryosparc-2cryosparc-3 运行用户的 cryoSPARC 作业。

使用 cryoSPARC 前,用户需要先向集群管理员申请账号,并向管理员说明处理数据所在位置,由管理员修改文件夹权限,增加 cryoSPARC 管理员读写权限。

1使用浏览器(推荐google chrome)登录 10.15.56.14245000


使用申请到的账号密码登录之后,显示如下:

2、点击 Projects-Add







新建project

3、提交作业

 


目前集群有三个节点队列作为 cryoSPARC 专门队列,提交作业时点击右下角的 queue 按钮,出现选择队列的对话框,用户可以根据队列的忙闲程度选择,之后点击Create按钮。


IMOD使用方法

$module load IMOD/4.11.24

$imod

 

Gromacs使用方法

gromacs是在gpu-c队列的节点上编译的  所以使用也请提交到gpu-c队列

$ module load gromacs-2021.3-cuda11.6 

默认会加载intel2021  gcc10.1  cuda11.6 以及gromacs自身变量


生物电镜平台电镜集群用户操作手册20231207.docx