当前位置: 首页 > news >正文

4月份最新---Meta发明了一种很新的Transformer

在自然语言处理领域,当模型处理长上下文时,如何在纷繁的 Token 中精准捕捉关键信息、过滤无关干扰,始终是注意力机制优化的核心方向。标准多头注意力(Multi-Head Attention, MHA)通过查询 - 键 - 值(Q-K-V)的点积相似性计算注意力权重,虽能定位单个 Token 级别的语义关联,却在涉及多 Token 语义组合的复杂场景中暴露瓶颈 —— 例如,当需要定位同时包含「Alice」和「rabbit」的句子时,传统注意力只能分别捕获单个 Token 的提及,却难以直接建模二者的共现关系。这种对单一 Token 相似性的依赖,导致模型在处理需要多 Token 语义交互的任务时,不得不依赖深层网络逐层编码组合信息,徒增计算成本。

突破单一 Token 瓶颈:Multi-Token 注意力(MTA)的革新

针对这一局限,研究者提出了Multi-Token 注意力(Multi-Token Attention, MTA),通过对注意力权重计算过程的轻量改造,实现从「单 Token 匹配」到「多 Token 关系建模」的跨越。其核心创新在于引入三维卷积运算(作用于键、查询、注意力头维度),使注意力权重的生成能够动态关联相邻键向量的语义组合历史查询的上下文依赖以及跨头注意力的协同信息

以「Alice 与 rabbit 共现」场景为例:MTA 可通过不同注意力头分别捕获「Alice」和「rabbit」的单 Token 注意力分布,再通过卷积运算融合这两个头的权重,精准定位二者同时出现的区域。这种机制无需额外增加模型维度,仅通过 0.001% 的参数增量,即可实现多 Token 语义关系的显式建模。

从理论验证到大规模落地:MTA 的核心贡献

  1. 玩具任务揭示本质缺陷
    研究者设计了专属实验任务,直观展示标准注意力在处理多 Token 关联时的失效案例,并证明 MTA 能以更低的计算成本解决此类问题,验证了机制的理论有效性。

  2. 千亿级语料预训练验证
    在 880M 参数规模的语言模型中,基于 1050 亿词库进行预训练,发现 MTA 在保持计算效率的同时,显著提升了模型对长距离语义依赖和复杂句法结构的建模能力。

  3. 多场景性能跃升

    • 基础任务:在标准语言建模基准中,MTA 通过三维卷积增强的权重交互,降低了验证复杂度,提升了上下文建模的细腻度。
    • 长语境挑战:在 Needle-in-the-Haystack(海量文本检索)和 BabiLong(长序列推理)等任务中,MTA 模型的关键信息捕捉能力较基线模型显著提升,证明其在长上下文场景中的优越性。
  4. 轻量化改进
    区别于传统注意力机制的架构革命,MTA 仅对权重计算环节进行局部改造,在参数规模几乎不变的前提下(仅增加 0.001%),实现了注意力机制的范式升级。<

http://www.xdnf.cn/news/119107.html

相关文章:

  • 【AI】基于OllamaSharp与.NET Core API的高效LLM查询实现
  • Langchain_Agent+数据库
  • 从对数变换到深度框架:逻辑回归与交叉熵的数学原理及PyTorch实战
  • ssh启动不了报错
  • 3台CentOS虚拟机部署 StarRocks 1 FE+ 3 BE集群
  • React19源码阅读之commitRoot
  • OpenBMC:BmcWeb login创建session
  • Spring Boot + MyBatis-Plus 的现代开发模式
  • 基于 EFISH-SBC-RK3588 的无人机通信云端数据处理模块方案‌
  • QT构建即时通讯应用--WebSocket全面解析与实战指南
  • 3. pandas笔记之:创建
  • 助力网站优化利用AI批量生成文章工具提升质量
  • 【QT网络】构建简单Udp回显服务器
  • ArrayList与顺序表详解
  • C# 结构(Struct)
  • 【AI News | 20250424】每日AI进展
  • 文件操作、流对象示例
  • Spring AI简介
  • vscode vue文件单行注释失效解决办法
  • 基于Keras3.x使用CNN实现简单的猫狗分类
  • WAMP设置外网访问
  • servlet-优化
  • ASP.NET Core 主机模型详解:Host、WebHost与WebApplication的对比与实践【代码之美】
  • 实现优雅的分页导航:从原理到最佳实践
  • Java查询数据库表信息导出Word
  • C++ STL priority_queue 详解:从基础到自定义类型
  • Spring Boot YML配置值“011“在代码中变为9的问题解析
  • 济南国网数字化培训班学习笔记-第二组-4节-输电线路工程安全管理
  • 二分小专题
  • 1Panel+Halo快速部署:简化服务器管理与网站搭建流程探索