git clone开启云上AI开发( 三 )


文章插图
步骤二 运行训练作业1.保存镜像
1)返回ModelArts管理控制台 , 在左侧菜单栏中选择**“开发环境 > Notebook”** , 进入新版Notebook管理页面 。在Notebook列表中 , 点击名称进入创建的Notebook详情页

git clone开启云上AI开发

文章插图
2)点击右侧“更多” , 选择“保存镜像”
git clone开启云上AI开发

文章插图
3)在保存镜像对话框中 , 设置组织、镜像名称、镜像版本和描述信息 。单击“确认”保存镜像 。
git clone开启云上AI开发

文章插图
在“组织”下拉框中选择一个组织 。如果没有组织 , 可以单击右侧的“立即创建” , 创建一个组织 。创建组织的详细操作请参见创建组织 。
同一个组织内的用户可以共享使用该组织内的所有镜像 。
4)镜像会以快照的形式保存 , 保存过程约5分钟 , 请耐心等待 。此时不可再操作实例(对于打开的JupyterLab界面和本地IDE 仍可操作) 。
5)镜像保存成功后 , 实例状态变为**“运行中”** , 用户可在“镜像管理”页面查看到该镜像详情 。
6)单击镜像的名称 , 进入镜像详情页 , 可以查看镜像版本/ID , 状态 , 资源类型 , 镜像大小 , SWR地址等 。
7)还可在左侧菜单栏中选择**“镜像管理”** , 查看镜像列表及详情 , 如下图所示:
git clone开启云上AI开发

文章插图
2.上传训练代码
返回Notebook页面 , 在新建的ipynb中输入以下代码 , 完成代码上传至OBS桶中
mox.file.copy_parallel("./DINO/","obs://dino-coco/DINO")如下图所示:
git clone开启云上AI开发

文章插图
3.创建训练作业
1)在左侧菜单栏中选择**“训练管理 > 训练作业”** , 点击右上角“创建训练作业” , 如下图所示:
git clone开启云上AI开发

文章插图
2)参数配置
创建方式:自定义算法
启动方式:自定义 , 选择已保存镜像
启动命令:
cd ${MA_JOB_DIR}/DINO && python main.py -c config/DINO/DINO_4scale.py --options dn_scalar=100 embed_init_tgt=TRUE dn_label_coef=1.0 dn_bbox_coef=1.0 use_ema=False dn_box_noise_scale=1.0训练输入:选择OBS桶内上传代码路径
训练输出:选择创建的OBS桶 , 点击新建文件夹 , 创建一个文件夹 , 用于存放训练输出 , 如下图所示:
git clone开启云上AI开发

文章插图
资源池:公干资源池
资源类型:GPU
规格: GPU: 1*NVIDIA-V100(32GB) | CPU: 8 核 64GB 3200GB
永久保存日志:开启 , 选择OBS桶 , 新建文件夹 , 用于存放训练日志 , 如下图所示:
git clone开启云上AI开发

文章插图
事件通知:开启 , 可监控训练作业的事件的状态 , 可短信通知 。
主题名:如不存在点击右侧“创建主题” 。主题是消息发布或客户端订阅通知的特定事件类型 。它作为发送消息和订阅通知的信道 , 为发布者和订阅者提供一个可以相互交流的通道 。
事件:全部勾选

经验总结扩展阅读