Blog | 香港科技大学（广州）HPC+AI智算平台用户手册 Documentation

AI平台常见问题反馈

2024年1月30日 · 阅读需 7 分钟

1. 本地的数据是否可以在平台中使用?

可以。通过用户家目录上传或者通过后台拷贝数据到用户家目录。

2. 平台中的数据是否可以在本地使用？

可以。通过用户家目录下载或者通过后台拷贝数据到自己的目录。

3. 如何在容器服务中使用用户自己的数据？

容器服务启动时会默认挂载用户家目录、作业数据区和共享数据区，可以在启动服务中直接访问用户家目录、作业数据区和共享数据区下的数据文件，目录路径和宿主机保持一致。

4. 如何保存在容器服务中创建的文件？

容器服务启动时会默认挂载用户家目录、作业数据区和共享数据区，可以将需要保存的文件拷贝到用户家目录、作业数据区或者共享数据区下。

5. 如何在离线的内网环境安装python包或者rpm包？

可以从外网下载相应的包及依赖包，导入内网，直接安装。或者搭建离线pip和conda源，可以直接安装。

6. 如何在非root启动的镜像中安装依赖包？

使用sudo执行yum或者apt-get命令。

7. pytorch、tensorflow等AI页面加载失败，没有正常显示

appform session过期，在portal.log和jhai.log中可以看到过期信息，重新登录门户，即可解决。

8. 计算节点无法访问景行应用门户节点外网IP时，在jupyter容器中，无法使用模型部署的容器服务做推理。

jupyter容器需要能访问景行应用门户节点外网IP，如果不知道外网ip，联系管理员获取。

9. 容器桌面中，执行mount，报错：“mount: /ubuntuxwf/: mount failed: Operation not permitted.”。

容器桌面安全考虑，没有开放privileged权限。如果需要使用文件，可以将需要挂载的文件解压后放到容器中使用。

10. tensorboard有时打开后为空页面，没有加载出tensorboard主页面”。

可能tensorboard需要的json文件没有加载完，关闭页面重新打开。

11. 作业详情或方案详情页面点击“tensorboard”，在容器服务中找不到对应id的tensorboard服务。

作业和方案共用一个tensorboard服务，服务名称为tensorboard-*，现在的内容为最新打开的tensorboard。在容器服务中可以创建多个tensorboard服务，和作业或方案中打开的无关。

12. 容器服务启动失败报错，“service start failed,current status is: rejected, reason is: No such image: ahaha/aaa:v_testa1”

创建容器服务时，选择/输入的镜像名是不存在的，或者是浏览器页面缓存的镜像名实际上已经不存在。清除浏览器缓存，输入/选择真正存在的镜像。

13. 桌面容器在firefox中获取剪切板内容失败，导致无法粘贴从本地复制的内容。

Firefox存在剪贴板访问安全限制，可使用门户登录页推荐的浏览器。

14. Jupyter中kernel Restarting问题或者Jupyter报错内存已满或者“CUDA error: out of memory”。

关掉一些正在运行的脚本即可释放内存或显存。

15. vscode中运行的程序直接被Killed。

可能是内存占满导致，检查开发环境内存是否用完，释放内存，或者可以尝试切换更高版本内存的硬件规格，或调整程序减少内存使用。

16. 第一次启动服务或者作业等待很久且日志中没有任何报错。

由于镜像较大，第一次启动需要从镜像仓库拉取，需要等待一段时间。

17. 修改镜像，挂载的文件为什么会变成的镜像的一部分？

修改镜像的过程中，会将挂载目录拷贝到镜像中。

18. 如何在平台中使用自己的镜像？

按照镜像适配规则命令镜像即可。

19. 直接在镜像仓库中运行程序，关闭镜像或者浏览器训练相关数据直接终端？

是的。运行作业，最好不要直接打开镜像，应该使用容器服务，作业提交或者开发中心进行，作业不会因为关闭终端或者web页面而消失。

20. 如何使用ssd或hdd类型存储？

登录平台https://hpc2login.hpc.hkust-gz.edu.cn/appform/desktop --> 我的数据 --> 作业数据区对应路径为： /hpc2ssd/JH_DATA/spooler/zhangxxxxxx；共享数据区对应路径为： /hpc2hdd/JH_DATA/share/zhangxxxx --> 或者在ai容器用命令行输入df -h，/hpc2ssd开头则是ssd存储，/hpc2hdd开头则是hdd存储。

21. 容器无法安装软件？

sudo -i命令切换到root用户安装软件。

22. 脚本如何激活anaconda3环境？

source /hpc2ssd/softwares/anaconda3/bin/activate xxxx环境名称

23. ai开发中心容器看不到ssh 地址和密码？

自己导入的镜像，非官方提供的镜像需要手动修改容器配置，再保存成新的镜像才可以正常显示ssh 地址和密码。具体请访问 https://docs.hpc.hkust-gz.edu.cn/hpc/howtoconnect/image-ssh

24. 开发中心新建容器，等了很久还没有启动？

容器镜像较大时，要等一段时间。

25. 再slurm集群，同一个脚本，作业有时候会运行很长时间?

脚本加上一行，例如：#SBATCH-x cpu1-17,cpu1-108 排除可疑计算节点。

命令报错相关

2023年7月27日 · 阅读需 2 分钟

1. error: Job submit/allocate failed: Invalid partition name specified;

错误原因：未指定正确的partition，可通过以下指令获取分区信息。

sinfo

2. batch job submission failed: Requested node configuration is not available;

user web-1

错误原因：申请资源的节点配置不匹配，如i64m512u分区的每个节点只有64个核心，但你如单节点申请的核心数超过64，就会报错。

3. (PartitionTimeLimit)；

user web-1

错误原因：指定-t, --time=\参数时，时间超过qos允许的时长，通过sinfo命令可以查看所有分区允许运行的最大时长

4. 使用pip下载组件速度慢

Pip、Miniconda都是python的第三方库管理工具，一般情况都是用国外的源，有时候会比较慢或连接不上，因此可以修改成国内的镜像源，这里以清华源举例临时修改清华源：可以在使用pip的时候加参数 -i https://pypi.tuna.tsinghua.edu.cn/simple

例如：pip install -i https://pypi.tuna.tsinghua.edu.cn/simple gevent

永久修改清华源：修改 ~/.pip/pip.conf (没有就创建一个)，修改 index-url至tuna，内容如下：

[global]
index-url = https://pypi.tuna.tsinghua.edu.cn/simple

软件安装相关

2023年7月27日 · 阅读需 1 分钟

缺少系统库文件。例如 libc* glic 登
缺少第三方库文件，需要根据软件安装说明中给出要求安装相应的库文件。
gcc 版本或者 python 版本过高或过低

作业提交相关

2023年7月27日 · 阅读需 4 分钟

常见的作业运行失败有以下几种:

作业脚本中参数有错误
作业脚本中带有 windows 系统的编码
提交的作业 cpu 核心数超过了集群总数
作业缺少运行的环境变量，例如缺少 lib*.so、缺少 cudnn 库或者 cudnn 库版本不正确等。

1. 作业提交失败，没有作业号?

作业提交命令或作业脚本中的参数有误，检查错误，修改为正确参数后重新提交任务。

2. 一直处于排队状态无法计算？

作业提交的资源（cpu核心或GPU卡数）超出整体集群最大资源数或超出分区（队列）的最大资源数。修改作业资源（CPU核心或GPU卡数）后重新提交任务。

3. 任务失败，提示缺少系统库文件？

缺少lib库文件，在运行软件的安装目录下查找lib,查到后设置lib库文件的调用环境；或联系管理员进行安装lib库文件；缺少或找不到cudnn.x库，x为cudann版本；查看cuda版本以及相关cudnn版本，加载正确版本的CUDA环境。

4. 作业脚本编码问题？

在windows操作系统中编辑的作业脚本，上传到Linux系统，提交作业时出现编码问题，使用dos2unix进行转换编码，转换命令为：dos2unix filename

5. 作业运行失败原因排查？

作业运行失败后会生成-e 参数和-o参数的log文件，通过查看这些log文件判断作业失败的原因。

6. 某些计算节点有问题，导致计算节点与管理节点通信异常问题？

环境配置问题，典型问题包括hosts不完整、系统时间不一致、slurm配置文件不一致。此时，出问题的节点可能是comp节点本身，也可能是其它参与消息转发的其它计算节点。

解决方法：统一检查所有节点的上述配置，并对出问题的节点进行修正，或者关闭该节点的slurmd服务。

网络设备异常，或者配置异常。

解决方法：结合系统日志和其它工具，定位问题并修正。

7. 节点上作业有些进程不能自己退出？

可以执行以下命令恢复节点状态，使得作业完全退出。具体步骤：

设置节点为DOWN状态

scontrol update nodename=<node name> state=down reason=comp

尝试手工处理残留的作业进程，如果失败则需要重启节点；
恢复节点状态，重启slurmd服务

scontrol update nodename=<node name> state=resume
systemctl restsart slurmd

8. 处于完成或失败状态的job如何重新排队？

Slurm支持重新安排处于完成或失败状态的job，可以使用命令：scontrol requeue job_id 然后，该job将被重新排队，回到 PENDING 状态

1. 本地的数据是否可以在平台中使用?​

2. 平台中的数据是否可以在本地使用？​

3. 如何在容器服务中使用用户自己的数据？​

4. 如何保存在容器服务中创建的文件？​

5. 如何在离线的内网环境安装python包或者rpm包？​

6. 如何在非root启动的镜像中安装依赖包？​

7. pytorch、tensorflow等AI页面加载失败，没有正常显示​

8. 计算节点无法访问景行应用门户节点外网IP时，在jupyter容器中，无法使用模型部署的容器服务做推理。​

9. 容器桌面中，执行mount，报错：“mount: /ubuntuxwf/: mount failed: Operation not permitted.”。​

10. tensorboard有时打开后为空页面，没有加载出tensorboard主页面”。​

11. 作业详情或方案详情页面点击“tensorboard”，在容器服务中找不到对应id的tensorboard服务。​

12. 容器服务启动失败报错，“service start failed,current status is: rejected, reason is: No such image: ahaha/aaa:v_testa1”​

13. 桌面容器在firefox中获取剪切板内容失败，导致无法粘贴从本地复制的内容。​

14. Jupyter中kernel Restarting问题或者Jupyter报错内存已满或者“CUDA error: out of memory”。​

15. vscode中运行的程序直接被Killed。​

16. 第一次启动服务或者作业等待很久且日志中没有任何报错。​

17. 修改镜像，挂载的文件为什么会变成的镜像的一部分？​

18. 如何在平台中使用自己的镜像？​

19. 直接在镜像仓库中运行程序，关闭镜像或者浏览器训练相关数据直接终端？​

20. 如何使用ssd或hdd类型存储？​

21. 容器无法安装软件？​

22. 脚本如何激活anaconda3环境？​

23. ai开发中心容器看不到ssh 地址和密码？​

24. 开发中心新建容器，等了很久还没有启动？​

25. 再slurm集群，同一个脚本，作业有时候会运行很长时间?​

1. error: Job submit/allocate failed: Invalid partition name specified;​

2. batch job submission failed: Requested node configuration is not available;​

3. (PartitionTimeLimit)；​

4. 使用pip下载组件速度慢​

1. 作业提交失败，没有作业号?​

2. 一直处于排队状态无法计算？​

3. 任务失败，提示缺少系统库文件？​

4. 作业脚本编码问题？​

5. 作业运行失败原因排查？​

6. 某些计算节点有问题，导致计算节点与管理节点通信异常问题？​

7. 节点上作业有些进程不能自己退出？​

8. 处于完成或失败状态的job如何重新排队？​