当前位置: 首页 > news >正文

昇腾算力加持,深度思考模型Colossal-R1上线魔乐社区

潞晨团队正式开源了Colossal-R1-7B与Colossal-R1-14B——两款在昇腾上,使用潞晨自研的分布式强化学习框架Colossal-RL,完成强化微调全流程的深度思考模型,现已上线魔乐社区,面向开发者与研究者免费开放。

🔗开源地址

https://modelers.cn/models/HPC_AI_TECH/Colossal-R1-7B

https://modelers.cn/models/HPC_AI_TECH/Colossal-R1-14B

01

模型介绍

Colossal-R1-7B与Colossal-R1-14B均基于DeepSeek-R1-Distill-Qwen系列模型进行微调,训练过程中潞晨团队全面采用自研的Colossal-RL分布式强化学习框架,并率先支持GRPO、DAPO等前沿算法。在数据方面,团队开发人员从 big_math、orz_math、Skywork、DAPO等开源资源中严格筛选,最终精选约12,000条高质量 prompt,确保了数据的难度与多样性。整个训练流程完全在昇腾算力上完成,并通过双重对齐方式保证了与NV版本的一致性,充分验证了国产芯片在深度思考模型训练中的强大潜力。

02

技术亮点

全流程国产芯片适配

从推理框架、强化学习(RL)到最终模型落地,整个训练流程完全基于昇腾算力实现。这标志着深度思考类大模型在国产芯片生态中实现了完整复现与优化。

图片

昇腾A2训练表现图

RL as a Pipeline:更高效的强化学习范式

在Colossal-RL框架中,潞晨团队引入了训推分离的流水线式设计(RL as a Pipeline)。这一范式让训练在第一个mini-batch就绪的瞬间即可启动,而无需等待完整的batch,从而显著加快迭代效率。同时,采用了异步one-step behind策略,使训练与推理在时间上实现最大程度的交叠(overlap),有效减少了算力空转,大幅提升整体吞吐率。

这种流水线模式不仅解决了“推理速度慢、训练等待久”的瓶颈,还能够根据推理与训练的耗时灵活调整资源分配,实现更加均衡的算力利用。在实际运行中,RL as a Pipeline带来的效率提升让模型能够以更快的速度收敛,并在相同算力条件下释放更强的性能潜力,为大模型的深度思考与复杂推理任务提供了坚实的技术保障。

模型表现显著提升

在AIME-24与Math-500数据集上的评测中,Colossal-R1-7B与Colossal-R1-14B的表现均已超越OpenAI-o1-preview,展现出强大的数学与逻辑推理能力。同时,在Alignment阶段,模型的reward指标实现了快速而稳定的收敛,进一步验证了训练体系的可靠性与高效性。这些成果不仅证明了Colossal-R1的领先性能,也让我们对其在未来更多数学推理与复杂逻辑任务中的应用充满信心。

图片

03

开源与致谢

在模型开发过程中,潞晨团队也得到昇腾计算产品线的支持,汲取了Fuyao-ray、vLLM-Ascend、MindSpeed团队的开源贡献与建议。正是这些力量共同推动了Colossal-R1的诞生。目前,Colossal-R1-7B与Colossal-R1-14B已上传至魔乐社区,并附带详细的微调方案和技术说明,供社区开发者复现、研究与应用。

欢迎大家访问魔乐社区,下载体验Colossal-R1!我们期待与更多开发者一同探索深度思考模型在国产算力生态中的无限可能。

http://www.xdnf.cn/news/1392733.html

相关文章:

  • 多智能体框架(下)
  • 嵌入式Linux驱动开发 - 蜂鸣器驱动
  • 【前端教程】JavaScript 数组对象遍历与数据展示实战
  • 微功耗遥测终端机在城市管网压力/流量监测中的应用
  • 打造企业内部的“技术桥梁”:超级用户机制如何助力制造企业高效运维
  • 【数据分享】省级人工智能发展水平综合指标体系(2011-2022)
  • 【LeetCode】动态规划——72.编辑距离、10.正则表达式匹配
  • ros2---位姿转换--eigen/tf2
  • 如何在mysql中执行创建数据库的脚本文件?
  • 企业级数据库管理实战(三):数据库性能监控与调优的实战方法
  • 学习笔记-Record类
  • 忆联参与制定消费级SSD团体标准正式出版! 以“高可靠”引领行业提质增效与用户体验升级
  • 联想打印机2268w安装
  • Ubuntu22.04系统安装Opencv,无法定位包libjasper-dev libdc1394-22-dev的解决办法
  • 微信小程序调用蓝牙打印机教程(TSPL命令)
  • 死锁检测 及其测试用例
  • 地铁隧道病害智能巡检系统——机器视觉技术的深度应用
  • Idea2025.2 MybatisX插件失效问题
  • vue3+wangEditor实现富文本编辑器
  • cursor的setting設置換行
  • 命令拓展(草稿)
  • Vue开发准备
  • Silvaco TCAD | Victory DoE的基本使用方法(三)
  • nacos单机部署并开启鉴权
  • 2025.8.29机械臂实战项目
  • Windows 下 MSYS2 + MinGW-w64 配置 Fyne GUI 编译环境全流程
  • Redis-分布式缓存
  • Java深拷贝与浅拷贝核心解析
  • 设计模式:装饰模式(Decorator Pattern)
  • Kubernetes 与 GitOps 的深度融合实践指南