当前位置: 首页 > backend >正文

论文略读:When Attention Sink Emerges in Language Models: An Empirical View

ICLR 2025  spotlight  688

**自回归语言模型(Auto-regressive Language Models, LMs)**通常会对首个 token 分配显著注意力,即使该 token 并无语义重要性,这种现象被称为 “注意力陷阱”(attention sink)。该现象已被广泛应用于多个实践场景中,如:流式生成、长上下文建模、KV 缓存优化、推理加速、模型量化等。

尽管应用广泛,人们对注意力陷阱在语言模型中的深层机制仍缺乏理解。在本研究中,我们首先证明了:注意力陷阱普遍存在于各种输入下的自回归语言模型中,即便是在小模型中也会出现。此外,我们还发现,注意力陷阱会在预训练过程中逐渐显现,这促使我们深入研究模型预训练中的优化策略、数据分布、损失函数与模型结构是如何共同影响该现象的。

我们的关键发现包括:

  • 注意力陷阱是在充足数据和有效优化后自然出现的

  • 其位置与损失函数训练数据分布高度相关;

  • 更重要的是,我们发现注意力陷阱本质上更像是“键的偏置”(key bias),它在注意力矩阵中存储了额外分数,但这些分数可能并不参与有意义的值计算,具有非信息性;

  • 我们进一步观察到,这一现象(至少部分)源于 softmax 归一化导致的 token 对注意力分数的内在依赖。

我们将 softmax 注意力替换为非归一化的 sigmoid 注意力后发现:在最多 10 亿参数规模的模型中,注意力陷阱现象不再出现

本研究不仅揭示了注意力陷阱的成因与机制,还为改善语言模型推理与优化提供了新的思路。

http://www.xdnf.cn/news/13555.html

相关文章:

  • VAS1085Q奇力科技LED驱动芯片车规级线性芯片
  • OpenCV CUDA模块图像变形------ 构建仿射变换的映射表函数buildWarpAffineMaps()
  • Python文件读写操作详解:从基础到实战
  • 【笔记】NVIDIA AI Workbench 中安装 PyTorch
  • Monkey 测试的基本概念及常用命令(Android )
  • 网络安全中对抗性漂移的多智能体强化学习
  • 硬件测试 图吧工具箱分享(附下载链接)
  • 亚马逊商品数据实时获取方案:API 接口开发与安全接入实践
  • 安卓上架华为应用市场、应用宝、iosAppStore上架流程,保姆级记录(1)
  • MySQL 8配置文件详解
  • 数据淘金时代:公开爬取如何避开法律雷区?
  • 杉山将(Sugiyama Masa)《图解机器学习》
  • 重拾前端基础知识:CSS预处理器
  • 计算机视觉与深度学习 | 基于Matlab的低照度图像增强算法原理,公式及实现
  • 第二节:Vben Admin v5 (vben5) Python-Flask 后端开发详解(附源码)
  • 记一次nacos搭建
  • leetcode0684. 冗余连接-medium
  • kafka-生产者(day-2)
  • 【Pandas】pandas DataFrame notna
  • 14.计算机网络End
  • 使用 C++ 和 OpenCV 构建智能答题卡识别系统
  • mysql知识点3--创建和使用数据库
  • 【图纸管理教程-2】工厂图纸混乱,用PLM怎么搜索数据?
  • 【医学目标检测】LN-DETR:一种基于多尺度特征融合的肺结节检测高效Transformer架构
  • 中兴B860AV1.1强力降级固件包
  • Spring Boot + MyBatis Plus 项目中,entity和 XML 映射文件的查找机制
  • Traefik 可观测性最佳实践
  • Windows 系统中修改文件默认打开方式
  • Shuffle流程
  • enumerable 和 configurable 属性详解