昇思学习营-开发版-模型开发与适配
大模型V3和R1虽然强大,但是需要的资源比较多,成本高:8张141GB显存的NVIDIA H200GPU,允许成本高。
所以本次选用DeepSeek-R1-Distill-Qwen-1.5B进行走通全流程,此为最小规模的DeepSeek蒸馏模型。
开发步骤:
此处主要区分镜像有两个版本要对应。8-12T和20T两个版本。
网络调试中:
开启同步排除问题命令:mindspore.set_content(pynative_synchronize=True)
损失函数报错处理流程: