4月份最新---Meta发明了一种很新的Transformer
在自然语言处理领域,当模型处理长上下文时,如何在纷繁的 Token 中精准捕捉关键信息、过滤无关干扰,始终是注意力机制优化的核心方向。标准多头注意力(Multi-Head Attention, MHA)通过查询 - 键 - 值(Q-K-V)的点积相似性计算注意力权重,虽能定位单个 Token 级别的语义关联,却在涉及多 Token 语义组合的复杂场景中暴露瓶颈 —— 例如,当需要定位同时包含「Alice」和「rabbit」的句子时,传统注意力只能分别捕获单个 Token 的提及,却难以直接建模二者的共现关系。这种对单一 Token 相似性的依赖,导致模型在处理需要多 Token 语义交互的任务时,不得不依赖深层网络逐层编码组合信息,徒增计算成本。
突破单一 Token 瓶颈:Multi-Token 注意力(MTA)的革新
针对这一局限,研究者提出了Multi-Token 注意力(Multi-Token Attention, MTA),通过对注意力权重计算过程的轻量改造,实现从「单 Token 匹配」到「多 Token 关系建模」的跨越。其核心创新在于引入三维卷积运算(作用于键、查询、注意力头维度),使注意力权重的生成能够动态关联相邻键向量的语义组合、历史查询的上下文依赖以及跨头注意力的协同信息。
以「Alice 与 rabbit 共现」场景为例:MTA 可通过不同注意力头分别捕获「Alice」和「rabbit」的单 Token 注意力分布,再通过卷积运算融合这两个头的权重,精准定位二者同时出现的区域。这种机制无需额外增加模型维度,仅通过 0.001% 的参数增量,即可实现多 Token 语义关系的显式建模。
从理论验证到大规模落地:MTA 的核心贡献
-
玩具任务揭示本质缺陷:
研究者设计了专属实验任务,直观展示标准注意力在处理多 Token 关联时的失效案例,并证明 MTA 能以更低的计算成本解决此类问题,验证了机制的理论有效性。 -
千亿级语料预训练验证:
在 880M 参数规模的语言模型中,基于 1050 亿词库进行预训练,发现 MTA 在保持计算效率的同时,显著提升了模型对长距离语义依赖和复杂句法结构的建模能力。 -
多场景性能跃升:
- 基础任务:在标准语言建模基准中,MTA 通过三维卷积增强的权重交互,降低了验证复杂度,提升了上下文建模的细腻度。
- 长语境挑战:在 Needle-in-the-Haystack(海量文本检索)和 BabiLong(长序列推理)等任务中,MTA 模型的关键信息捕捉能力较基线模型显著提升,证明其在长上下文场景中的优越性。
-
轻量化改进:
区别于传统注意力机制的架构革命,MTA 仅对权重计算环节进行局部改造,在参数规模几乎不变的前提下(仅增加 0.001%),实现了注意力机制的范式升级。<