当前位置: 首页 > ds >正文

论文略读: LAYERWISE RECURRENT ROUTER FOR MIXTURE-OF-EXPERTS

ICLR 2025 3668

大型语言模型(LLMs)的扩展极大地提升了其在各类任务中的表现,但这一增长也需要高效的计算策略来匹配。**专家混合架构(Mixture-of-Experts,MoE)**在不显著增加训练成本的前提下扩展模型规模方面表现突出。然而,尽管MoE具备优势,当前的MoE模型在参数效率上却常常存在问题。例如,一个具有 520亿 参数的预训练MoE模型,其性能可能仅与一个标准的 6.7亿 参数模型相当。

在MoE中,路由器(router) 是核心组件,但目前的做法是在各层独立地对token进行分配,未能利用历史路由信息,这可能导致次优的token–专家匹配,进而引发参数利用效率低下的问题。

为了解决这一问题,我们提出了一种新的架构:用于MoE的层间循环路由器(Layerwise Recurrent Router for Mixture-of-Experts,简称RMoE)。RMoE引入了门控循环单元(GRU),在连续层之间建立路由决策的依赖关系。这种“层间循环”机制可以高效地并行计算,且只带来可接受的计算成本。

我们的大量实证评估表明,基于RMoE的语言模型在多个基准模型上都实现了稳定且显著的性能提升。此外,RMoE还引入了一种新颖的计算阶段,该阶段与现有方法正交,从而可以无缝地集成到各种现有的MoE架构中。

分析表明,RMoE的性能提升主要得益于其跨层信息共享机制,这不仅改善了专家选择的准确性,还提升了专家间的多样性。

http://www.xdnf.cn/news/14313.html

相关文章:

  • 实现回显服务器(基于UDP)
  • 【Linux系列】HEIC文件类型
  • 使用 vscode 开发 uni-app 项目时如何解决 manifest.json 文件注释报错的问题
  • 学习设计模式《十三》——迭代器模式
  • uniapp打包安卓和ios
  • 前端资源帖
  • JUC核心解析系列(二)——显式锁深度解析
  • Flink 与 Hive 深度集成
  • Qt .pro配置gcc相关命令(三):-W1、-L、-rpath和-rpath-link
  • 删除链表的倒数第N个结点
  • 系统架构设计师 2
  • 音频水印——PerTh Watermarker
  • 《Attention Is All You Need》解读
  • 佛山SAP本地化代理商和实施公司推荐,哪家更专业?
  • Emacs定制:文件管理dired
  • 为应对激烈竞争环境,IBMS系统如何提升企业管理效率
  • [Java恶补day24] 整理模板·考点三【二分查找】
  • 2.1话题发布
  • 探索Agent的发展潜力:大模型与具身智能的融合
  • 浅谈拼写纠错
  • 调用AkShare获取A股股票基本信息
  • 布局和约束相关的生命周期(layoutIfNeeded,updateConstraintsIfNeeded)
  • iOS安全和逆向系列教程 第19篇:ARM64汇编语言基础与逆向分析
  • 使用清华大学的 Hugging Face 镜像
  • PTP时间同步实战测试clock master/slave 直连校时+PPS测试
  • 第8章——8天Python从入门到精通【itheima】-88~90-Python的文件操作(文件的写出+文件的追加+综合案例)
  • 强化学习 PPO
  • GRUB2 启动配置的工作原理与优先级规则详解
  • 软件测试银行项目之“信用卡测试流程”
  • LlamaIndex 工作流 并发执行