当前位置: 首页 > web >正文

从 TinyZero 到 APR:语言模型推理能力的探索与自适应并行化

https://mp.weixin.qq.com/s/IKzCkR7hzfctcK0c0DbBCA

TinyZero是首个DeepSeek R1-Zero的干净、简洁、易于获取的全开源复现,目前已11.6k Star。同时,它只需 30 美元就能模拟花费600万美元的DeepSeek R1-Zero 的推理。

在这里插入图片描述

TinyZero 以字节的RLHF训练框架veRL为基础进行构建,采用 DeepSeek R1-Zero 算法,通过强化学习在没有监督微调的情况下实现了 3B 参数的大语言模型的自我思维验证和搜索能力。

https://github.com/Jiayi-Pan/TinyZero

4月22日上午9点,青稞Talk 第46期,UC Berkeley 博士生、TinyZero项目作者潘家怡和APR合作者李岫宇,将直播分享《从 TinyZero 到 APR:语言模型推理能力的探索与自适应并行化》。

APR(Adaptive Parallel Reasoning)是潘家怡博士和李岫宇博士,在Long CoT模型并行化加速方面提出自适应并行推理框架。

APR 通过多线程控制原语(spawn() 和 join())动态协调串行与并行推理流程,并基于端到端强化学习联合优化主从线程推理路径,实现无预设结构的计算资源自主调度。

在 Countdown 推理任务中,APR 展现出显著优势:4k 上下文窗口内成功率提升 23.4%(83.4% vs. 60.0%),20k 总 token 计算量时成功率提高 13.5%(80.1% vs. 66.6%),5 秒延迟条件下准确率提升 17.9%。

该框架为语言模型通过自适应分配并行计算资源优化推理效能提供了系统性解决方案。

分享嘉宾

李岫宇,UC Berkeley 博士生,导师为 Kurt Keutzer 教授,此前本科毕业于康奈尔大学。现主要研究方向为大语言模型 reasoning,后训练和高效推理。个人主页:xiuyuli.com

潘家怡,UC Berkeley 博士生,导师为 Alane Suhr教授,此前本科毕业于上海交通大学和密西根大学。现主要研究方向为大语言模型后训练方向,通过强化学习等方式提高模型在Agent和Reasoning上的能力。个人主页:jiayipan.com

主题提纲

从 TinyZero 到 APR:语言模型推理能力的探索与自适应并行化

1、TinyZero: 低成本复现 DeepSeek R1 Zero Aha moment
2、大语言模型传统 CoT 推理中的挑战
3、APR: 自适应并行推理框架介绍
4、端到端强化学习驱动优化

直播时间

4月22日上午9:00 - 10:00

http://www.xdnf.cn/news/800.html

相关文章:

  • JBoss 项目修复笔记:绕开 iframe 安全问题,JSF 与 Angular 最小代价共存方案
  • 高防IP能抵御哪些类型的网络攻击?
  • 【Linux】多线程任务模块
  • 【TeamFlow】4.2 Yew库详细介绍
  • 基础版-图书管理系统
  • AOSP Android14 Launcher3——点击桌面图标启动应用动画流程
  • url和http
  • 海外服务器安装Ubuntu 22.04图形界面并配置VNC远程访问指南
  • AI 速读 SpecReason:让思考又快又准!
  • opencv 图像矫正的原理
  • 小刚说C语言刷题——1039 求三个数的最大数
  • PyTorch与TensorFlow模型全方位解析:保存、加载与结构可视化
  • 明心见性与真如三昧
  • CTF web入门之SQL注入使用工具sqlmap
  • 网页下载的m3u8格式文件使用FFmpeg转为MP4
  • C#常用LINQ
  • 快速搭建 Cpolar 内网穿透(Mac 系统)
  • 嵌入式开发板调试方式完全指南:串口/SSH/Telnet及其他方式对比
  • 深度学习框架PyTorch——从入门到精通(3.3)YouTube系列——自动求导基础
  • 【每天一个知识点】主题建模(Topic Modeling)
  • 浙江大学DeepSeek 公开课 第三季 第1期讲座 - 马东方教授 (附PPT下载) by突破信息差
  • 【25软考网工笔记】第三章 局域网(1)CSMA/CD、二进制指数退避算法、最小帧长计算
  • 高品质性价比之王-特伦斯便携钢琴V10
  • 海外版高端Apple科技汽车共享投资理财系统
  • Spark-SQL编程
  • 【第十六届 蓝桥杯 省 C/Python A/Java C 登山】题解
  • 《Java工程师面试核心突破》专栏简介
  • Uniapp 自定义TabBar + 动态菜单实现教程(Vuex状态管理详解)
  • Docker如何更换镜像源提高拉取速度
  • 【Easylive】为什么需要手动转换 feign.Response 到 HttpServletResponse