电镜集群用户使用操作手册（2023年6月28日更新）

发布者：刘丹丹发布时间：2020-11-11浏览次数：1334

一、电镜集群用户计算资源配置

1、管理/登录节点

ip：10.15.56.103
登录方法：

打开terminal终端软件，windows电脑推荐使用MobaXterm，mac或linux电脑使用自带 terminal

- 通过云桌面登录或玻璃房support PC 登录：ssh 账号@10.15.56.103

- 通过校园网登录：ssh 账号@10.15.56.103 –p 10086

注意事项：

管理节点上

允许:

- 浏览/移动/拷贝/编辑文件

- 编辑作业脚本

- 通过Slurm提交作业

- 检查作业状态

不允许：

- 运行作业

- 多进程下载大量数据

2、计算节点

CPU节点：16个

- 每节点两个cpu，每节点含28个核

- 每8个节点分为一个队列，分别为cpu-1，cpu-2

GPU节点：8* 4卡P100节点 & 6* 4卡P40节点 & 19*4 卡A40节点。

- P100卡的前6个节点为GPU-A队列，后两个节点分别为cryosparc1与cryosparc2队列。

- P40节点，其他五个做为GPU-B队列，一个作为cryosparc3 队列。

- A40节点，16个作为GPU_C队列，其余三个分别为cryosparc_c-1，cryosparc_c-2，cryosparc_c-3队列。

FAT节点：三个，

- 一个64核，2TB内存，队列名FAT

- 两个各64核，1TB内存，队列名BIG_MEM

二、修改账户密码的方法

为了数据安全考虑，用户在集群上的账户在首次登陆之后应该及时修改密码，修改密码有两种方式：

1，命令行方式：

使用passwd命令，首先用原密码登录账号，之后使用该命令按要求输入原密码及新密码即可。

2，集群管理系统方式：使用浏览器登录 https://10.15.56.103:9002

输入集群的用户账号以及密码，进入chess管理网页，在右上角账户下面选择修改密码，进行密码修改操作：

最后点击保存，至此集群账号密码修改成功。

建议用户养成定期修改密码的习惯，并且尽量选择比较复杂的密码，以保护所属数据的安全性。

三、用户提交作业方式

提交作业分为三种方式：CHESS平台提交、终端文本提交、应用软件UI界面提交。首先无论以何种方式提交作业，应用软件必须先安装在集群上。

常用的提交作业方式：

- 终端文本提交

1.1 登录终端，使用mobaxterm 选择ssh 然后使用个人账户登录集群管理节点

1.2 编写提交脚本，脚本名称可以自定义，这里使用1.slurm

脚本内容为：

#! /bin/bash

#SBATCH -J test ###指定作业名称

#SBATCH -p GPU-A ### 指定队列名称

#SBATCH -t hh:mm:ss ### 指定本次作业运行的最大时长

#SBATCH --gres=gpu:tesla:x ###指定使用gpu的个数，x为数字

#SBATCH -n x ###指定使用的核数

#SBATCH -N x ###指定使用的节点数

#Command

Mpirun -n x --machinefile ./host.txt relion

1.3 提交作业

sbatch 1.slurm

输出的信息为：

1.4 查看作业，根据上面的输出查找对应的jobID

squeue

1.5 查看作业详情

scontrol show job <job_id>

1.6 删除指定作业

scancel <job_id>

- 应用软件GUI界面提交

需要根据软件特性做相应配置，具体见后面几种常用软件提交作业用法。

四、relion在集群中的使用方法

目前集群中安装的relion版本有：relion2.0，relion3.03，relion3.1-beta，relion3.1.3，relion-4.0.1-cuda-11.6 (module load relion/4.0.1-cuda11.6; 只能使用GPU- C队列)，可以使用module av命令查看可以调用的版本。

1、登录集群，调用relion相应模块

2、进入到数据所在的文件夹，调用relion。注意：一定要cd到要计算的数据所在文件夹后再调用relion！

3 提交作业方法：

a) 实例一：以其中一个3D classification任务为例，以下参数设置方法是使用GPU-A队列中的两个节点，并且申请所有的八张GPU卡。

关键参数：

Submit to queue? 一定要选Yes，如此该任务才会提交到计算节点上运行，否则会在管理节点运行。

如果申请一个GPU节点，相应参数改为：

b）实例2：以motion correction任务为例，以下任务申请两个GPU节点，使用8张卡

五、cisTEM在集群中的使用方法

- 登陆管理节点 10.15.56.103，并运行：

module load cistem

cisTEM

之后打开已有project或者新建project，点击左栏的 settings：

在打开的Gui窗口里设置settings：

1 在左边窗口处点击 rename，将当前profile名字改为 slurm-sbatch（也可选用其他名字）

2 点击右边窗口的Specify按钮，分别将GUI Address与Controller Address 改为登陆节点IP: 10.15.56.103

3 双击Command下面的蓝条，可以进入编辑命令状态

编辑完命令，点击 OK，GUI窗口内容此时如下：

4、此时点击右下角 save 保存。切记一定要保存，尤其首次使用cisTEM时，否则就会在管理节点上跑任务。

后续每次调整该提交命令中的参数之后都需点击 save。

提交作业命令示例1：

sbatch –n 5 –c 1 –p cpu-2 --wrap=”home/software/cistem-1.0.0/$command”

No copies 为4

命令含义：5个任务，每个任务使用1个核，在cpu-2队列上执行。

并复制4个提交命令，也即产生4个作业，有4个不同的jobid。

使用如下命令可以查看队列cpu-2 上的使用核的情况

sinfo --format="%12P %.10n %.5T %.14C" |grep 'cpu-2'

显示：

提交作业命令多节点示例2：

将提交作业的命令改为

sbatch –n 5 –c 2 –p cpu-2 --wrap="home/software/cistem-1.0.0/$command"

No copies 为4

命令含义：5个任务，每个任务使用2个核，在队列cpu-2上执行。

产生四个jobid

每个作业使用10个核。4个作业使用40个核，因为每个节点28个核，所以提交任务后 squeue 显示分配2节点。

同样使用命令查看cpu-2上的使用核的情况

sinfo --format="%12P %.10n %.5T %.14C" |grep 'cpu-2'

显示：

六、cryoSPARC在集群中的使用方法

目前集群中有专门的三个节点 gpu-a-node07.chess 与 gpu-a-node08.chess ， gpu-b-node06.chess 分别作为队列 cryosparc-1与cryosparc-2，cryosparc-3 运行用户的 cryoSPARC 作业。