当前位置: 首页 > backend >正文

token危机解决?扩散模型数据潜力3倍于自回归,重训480次性能仍攀升

扩散语言模型(DLMs)是超强的数据学习者。

token 危机终于要不存在了吗?

近日,新加坡国立大学 AI 研究者 Jinjie Ni 及其团队向着解决 token 危机迈出了关键一步。

在当前大语言模型(LLM)的持续发展中,面临的挑战之一是可用的高质量训练文本数据(tokens)即将枯竭,并成为限制模型性能持续提升的关键瓶颈。另外,新增的高质量数据来源少,获取成本高,去重后更加稀缺。因此,当模型规模继续扩大,所需数据量按 Scaling Laws 成倍增加时,就出现了「优质 token 不够训练」的危机。

针对这一现象,该团队从零开始预训练了扩散语言模型(DLMs)与自回归(AR)模型,其中规模最高至 80 亿参数、4800 亿 tokens、480 个 epoch。

研究有以下三项重要发现:

  • 在 token 数量受限的情况下,DLMs 优于 AR,并且具有超过 3 倍的数据潜力;

  • 一个仅用 10 亿 tokens 训练的 10 亿参数 DLM,在 HellaSwag(常识推理基准) 上可达 56%,在 MMLU(综合多任务语言理解基准) 上可达 33%,无任何技巧、无挑选数据;

  • 未出现性能饱和:重复训练次数越多,提升越明显。

此外,团队还剖析了并行研究《Diffusion Beats Autoregressive in Data-Constrained Settings》中的严重方法论缺陷 —— 以共同提升开放评审的标准!

结论 1:扩散语言模型(DLMs)是超强的数据学习者。

如上所述,团队从零开始预训练了一系列 DLMs,规模最高达 80 亿参数、4800 亿 tokens。结果提供了有力证据:在普通网页数据上进行重复训练时,DLMs 在数据受限场景下无论模型规模如何,都优于自回归(AR)模型,展现出显著更高的潜力且未出现性能饱和。

总体而言,DLMs 的最终数据潜力比 AR 模型高出三倍以上。

结论 2:重复越多,收获更多。

为了研究 DLM 训练中 token 的全部潜力,团队进行了额外实验:将同一份 10 亿 token 的数据集重复训练 480 个 epoch,总训练量达到 4800 亿 tokens。结果显示,模型在 HellaSwag 上取得约 56% 的准确率,在 MMLU 上取得约 33%,显著优于 AR 的约 41% 和约 29%。

令人惊讶的是,即使在如此极端的重复条件下,性能依然未出现饱和,这表明 DLMs 能够从固定的 10 亿 token 语料中提取到远超预期的有效信息。

http://www.xdnf.cn/news/17416.html

相关文章:

  • 浏览器CEFSharp88+X86+win7 之多页面展示(四)
  • LLaMA-Adapter Efficient Fine-tuning of Language Models with Zero-init Attention
  • Redis - 使用 Redis HyperLogLog 进行高效基数统计
  • Spring Boot与WebSocket构建物联网实时通信系统
  • 基于Spring Boot和WebSocket的实时聊天系统
  • go语言运算符
  • 遇到前端导出 Excel 文件出现乱码或文件损坏的问题
  • Linux 管道命令及相关命令练习与 Shell 编程、Tomcat 安装
  • 基于Ubuntu20.04的环境,编译QT5.15.17源码
  • Lua语言元表、协同程序
  • JavaWeb(苍穹外卖)--学习笔记17(Apache Echarts)
  • LightGBM 与 GBDT 在机器学习中的性能与特点比较
  • Graph-R1:一种用于结构化多轮推理的智能图谱检索框架,并结合端到端强化学习
  • 【最后203篇系列】031 构建MCP尝试
  • Docker Compose 部署高可用 MongoDB 副本集集群(含 Keepalived + HAProxy 负载均衡)
  • 从零学习three.js官方文档(二)——图元
  • 去除Edge微软浏览器与Chrome谷歌浏览器顶部出现“此版本的Windows不再支持升级Windows 10”的烦人提示
  • JavaWeb(苍穹外卖)--学习笔记18(Apache POI)
  • 安全引导功能及ATF的启动过程(五)
  • 数据结构:栈和队列(Stack Queue)基本概念与应用
  • AI编程插件对比分析:CodeRider、GitHub Copilot及其他
  • 云服务器最新版MySQL 安装步骤
  • 第4章 程序段的反复执行1 for语句P115练习题(题及答案)
  • Matlab系列(004) 一 Matlab分析正态分布(高斯分布)
  • cuOpt_server错误分析
  • 如何解决pip安装报错ModuleNotFoundError: No module named ‘fastai’问题
  • 面试题-----Spring Cloud
  • LLM 的向量的方向表示语义,向量长度表示什么
  • 强化学习笔记:从Q学习到GRPO
  • 1.JavaScript 介绍