Skip to main content

AI平台常见问题反馈

· 6 min read

1. 本地的数据是否可以在平台中使用?

可以。通过用户家目录上传或者通过后台拷贝数据到用户家目录。

2. 平台中的数据是否可以在本地使用?

可以。通过用户家目录下载或者通过后台拷贝数据到自己的目录。

3. 如何在容器服务中使用用户自己的数据?

容器服务启动时会默认挂载用户家目录、作业数据区和共享数据区,可以在启动服务中直接访问用户家目录、作业数据区和共享数据区下的数据文件,目录路径和宿主机保持一致。

4. 如何保存在容器服务中创建的文件?

容器服务启动时会默认挂载用户家目录、作业数据区和共享数据区,可以将需要保存的文件拷贝到用户家目录、作业数据区或者共享数据区下。

5. 如何在离线的内网环境安装python包或者rpm包?

可以从外网下载相应的包及依赖包,导入内网,直接安装。或者搭建离线pip和conda源,可以直接安装。

6. 如何在非root启动的镜像中安装依赖包?

使用sudo执行yum或者apt-get命令。

7. pytorch、tensorflow等AI页面加载失败,没有正常显示

appform session过期,在portal.log和jhai.log中可以看到过期信息,重新登录门户,即可解决。

8. 算节点无法访问景行应用门户节点外网IP时,在jupyter容器中,无法使用模型部署的容器服务做推理。

jupyter容器需要能访问景行应用门户节点外网IP,如果不知道外网ip,联系管理员获取。

9. 容器桌面中,执行mount,报错:“mount: /ubuntuxwf/: mount failed: Operation not permitted.”。

容器桌面安全考虑,没有开放privileged权限。如果需要使用文件,可以将需要挂载的文件解压后放到容器中使用。

10. tensorboard有时打开后为空页面,没有加载出tensorboard主页面”。

可能tensorboard需要的json文件没有加载完,关闭页面重新打开。

11. 作业详情或方案详情页面点击“tensorboard”,在容器服务中找不到对应id的tensorboard服务。

作业和方案共用一个tensorboard服务,服务名称为tensorboard-*,现在的内容为最新打开的tensorboard。在容器服务中可以创建多个tensorboard服务,和作业或方案中打开的无关。

12. 容器服务启动失败报错,“service start failed,current status is: rejected, reason is: No such image: ahaha/aaa:v_testa1”

创建容器服务时,选择/输入的镜像名是不存在的,或者是浏览器页面缓存的镜像名实际上已经不存在。清除浏览器缓存,输入/选择真正存在的镜像。

13. 桌面容器在firefox中获取剪切板内容失败,导致无法粘贴从本地复制的内容。

Firefox存在剪贴板访问安全限制,可使用门户登录页推荐的浏览器。

14. Jupyter中kernel Restarting问题或者Jupyter报错内存已满或者“CUDA error: out of memory”。

关掉一些正在运行的脚本即可释放内存或显存。

15. vscode中运行的程序直接被Killed。

可能是内存占满导致,检查开发环境内存是否用完,释放内存,或者可以尝试切换更高版本内存的硬件规格,或调整程序减少内存使用。

16. 第一次启动服务或者作业等待很久且日志中没有任何报错。

由于镜像较大,第一次启动需要从镜像仓库拉取,需要等待一段时间。

17. 修改镜像,挂载的文件为什么会变成的镜像的一部分?

修改镜像的过程中,会将挂载目录拷贝到镜像中。

18. 如何在平台中使用自己的镜像?

按照镜像适配规则命令镜像即可。

19. 直接在镜像仓库中运行程序,关闭镜像或者浏览器训练相关数据直接终端?

是的。运行作业,最好不要直接打开镜像,应该使用容器服务,作业提交或者开发中心进行,作业不会因为关闭终端或者web页面而消失。