Skip to main content

· 6 min read

1. 本地的数据是否可以在平台中使用?

可以。通过用户家目录上传或者通过后台拷贝数据到用户家目录。

2. 平台中的数据是否可以在本地使用?

可以。通过用户家目录下载或者通过后台拷贝数据到自己的目录。

3. 如何在容器服务中使用用户自己的数据?

容器服务启动时会默认挂载用户家目录、作业数据区和共享数据区,可以在启动服务中直接访问用户家目录、作业数据区和共享数据区下的数据文件,目录路径和宿主机保持一致。

4. 如何保存在容器服务中创建的文件?

容器服务启动时会默认挂载用户家目录、作业数据区和共享数据区,可以将需要保存的文件拷贝到用户家目录、作业数据区或者共享数据区下。

5. 如何在离线的内网环境安装python包或者rpm包?

可以从外网下载相应的包及依赖包,导入内网,直接安装。或者搭建离线pip和conda源,可以直接安装。

6. 如何在非root启动的镜像中安装依赖包?

使用sudo执行yum或者apt-get命令。

7. pytorch、tensorflow等AI页面加载失败,没有正常显示

appform session过期,在portal.log和jhai.log中可以看到过期信息,重新登录门户,即可解决。

8. 算节点无法访问景行应用门户节点外网IP时,在jupyter容器中,无法使用模型部署的容器服务做推理。

jupyter容器需要能访问景行应用门户节点外网IP,如果不知道外网ip,联系管理员获取。

9. 容器桌面中,执行mount,报错:“mount: /ubuntuxwf/: mount failed: Operation not permitted.”。

容器桌面安全考虑,没有开放privileged权限。如果需要使用文件,可以将需要挂载的文件解压后放到容器中使用。

10. tensorboard有时打开后为空页面,没有加载出tensorboard主页面”。

可能tensorboard需要的json文件没有加载完,关闭页面重新打开。

11. 作业详情或方案详情页面点击“tensorboard”,在容器服务中找不到对应id的tensorboard服务。

作业和方案共用一个tensorboard服务,服务名称为tensorboard-*,现在的内容为最新打开的tensorboard。在容器服务中可以创建多个tensorboard服务,和作业或方案中打开的无关。

12. 容器服务启动失败报错,“service start failed,current status is: rejected, reason is: No such image: ahaha/aaa:v_testa1”

创建容器服务时,选择/输入的镜像名是不存在的,或者是浏览器页面缓存的镜像名实际上已经不存在。清除浏览器缓存,输入/选择真正存在的镜像。

13. 桌面容器在firefox中获取剪切板内容失败,导致无法粘贴从本地复制的内容。

Firefox存在剪贴板访问安全限制,可使用门户登录页推荐的浏览器。

14. Jupyter中kernel Restarting问题或者Jupyter报错内存已满或者“CUDA error: out of memory”。

关掉一些正在运行的脚本即可释放内存或显存。

15. vscode中运行的程序直接被Killed。

可能是内存占满导致,检查开发环境内存是否用完,释放内存,或者可以尝试切换更高版本内存的硬件规格,或调整程序减少内存使用。

16. 第一次启动服务或者作业等待很久且日志中没有任何报错。

由于镜像较大,第一次启动需要从镜像仓库拉取,需要等待一段时间。

17. 修改镜像,挂载的文件为什么会变成的镜像的一部分?

修改镜像的过程中,会将挂载目录拷贝到镜像中。

18. 如何在平台中使用自己的镜像?

按照镜像适配规则命令镜像即可。

19. 直接在镜像仓库中运行程序,关闭镜像或者浏览器训练相关数据直接终端?

是的。运行作业,最好不要直接打开镜像,应该使用容器服务,作业提交或者开发中心进行,作业不会因为关闭终端或者web页面而消失。

· 2 min read

1. error: Job submit/allocate failed: Invalid partition name specified;

错误原因:未指定正确的partition,可通过以下指令获取分区信息。

sinfo

2. batch job submission failed: Requested node configuration is not available;

user web-1

错误原因:申请资源的节点配置不匹配,如i64m512u分区的每个节点只有64个核心,但你如单节点申请的核心数超过64,就会报错。

3. (PartitionTimeLimit);

user web-1

错误原因:指定-t, --time=\参数时,时间超过qos允许的时长,通过sinfo命令可以查看所有分区允许运行的最大时长

4. 使用pip下载组件速度慢

Pip、Miniconda都是python的第三方库管理工具,一般情况都是用国外的源,有时候会比较慢或连接不上,因此可以修改成国内的镜像源,这里以清华源举例 临时修改清华源: 可以在使用pip的时候加参数 -i https://pypi.tuna.tsinghua.edu.cn/simple

例如:pip install -i https://pypi.tuna.tsinghua.edu.cn/simple gevent

永久修改清华源: 修改 ~/.pip/pip.conf (没有就创建一个), 修改 index-url至tuna,内容如下:

[global]
index-url = https://pypi.tuna.tsinghua.edu.cn/simple

· One min read
  • 缺少系统库文件。例如 libc* glic 登
  • 缺少第三方库文件,需要根据软件安装说明中给出要求安装相应的库文件。
  • gcc 版本或者 python 版本过高或过低

· 4 min read

常见的作业运行失败有以下几种:

  • 作业脚本中参数有错误
  • 作业脚本中带有 windows 系统的编码
  • 提交的作业 cpu 核心数超过了集群总数
  • 作业缺少运行的环境变量,例如缺少 lib*.so、缺少 cudnn 库或者 cudnn 库 版本不正确等。

1. 作业提交失败,没有作业号?

作业提交命令或作业脚本中的参数有误,检查错误,修改为正确参数后重新提交任务。

2. 一直处于排队状态无法计算?

作业提交的资源(cpu核心或GPU卡数)超出整体集群最大资源数或超出分区(队列) 的最大资源数。修改作业资源(CPU核心或GPU卡数)后重新提交任务。

3. 任务失败,提示缺少系统库文件?

缺少lib库文件,在运行软件的安装目录下查找lib,查到后设置lib库文件的调用环境;或 联系管理员进行安装lib库文件; 缺少或找不到cudnn.x库,x为cudann版本;查看cuda版本以及相关cudnn版本,加 载正确版本的CUDA环境。

4. 作业脚本编码问题?

在windows操作系统中编辑的作业脚本,上传到Linux系统,提交作业时出现编码问题,使用dos2unix进行转换编码,转换命令为:dos2unix filename

5. 作业运行失败原因排查?

作业运行失败后会生成-e 参数和-o参数的log文件,通过查看这些log文件判断作业失败 的原因。

6. 某些计算节点有问题,导致计算节点与管理节点通信异常问题?

  1. 环境配置问题,典型问题包括hosts不完整、系统时间不一致、slurm配置文件不一 致。此时,出问题的节点可能是comp节点本身,也可能是其它参与消息转发的其它计算 节点。

解决方法:统一检查所有节点的上述配置,并对出问题的节点进行修正,或者关闭该节点 的slurmd服务。

  1. 网络设备异常,或者配置异常。

解决方法:结合系统日志和其它工具,定位问题并修正。

7. 节点上作业有些进程不能自己退出?

可以执行以下命令恢复节点状态,使得作业完全退出。具体步骤:

  • 设置节点为DOWN状态
scontrol update nodename=<node name> state=down reason=comp
  • 尝试手工处理残留的作业进程,如果失败则需要重启节点;
  • 恢复节点状态,重启slurmd服务
scontrol update nodename=<node name> state=resume
systemctl restsart slurmd

8. 处于完成或失败状态的job如何重新排队?

Slurm支持重新安排处于完成或失败状态的job,可以使用命令:scontrol requeue job_id 然后,该job将被重新排队,回到 PENDING 状态