当前位置: 首页 > ops >正文

大模型-attention汇总解析之-MQA

MQA,即 “Multi-Query Attention”,是减少 KV Cache 的一次的一种大胆尝试,首次提出自《Fast Transformer Decoding: One Write-Head is All You Need》, 在2019 年减少 KV Cache 就已经是研究人员非常关注的一个课题了。MQA 的思路很简单,直接让所有 Attention Head 共享同一个 K、V。

论文中伪代码,

Todo: k, v 如何选择?实际上是多头共同使用一个k, v 缓存。

一般的multi head attention 的qkv的头的数量都一样,而multi query attention的q的头数量保持不变,k,v的头数量都变为1。

论文中的计算结果:

 

这样子就直接将 KV Cache 减少到了原来的1/h ,这是非常可观的, 已经简洁的不能再简洁了。使用 MQA 的模型包括 PaLM 、StarCoder、Gemini 等。 

 

http://www.xdnf.cn/news/9993.html

相关文章:

  • (11)-java+ selenium->元素定位之By_tag_name
  • 编译器优化和实例
  • Haproxy搭建Web集群
  • 常见跨域问题解决
  • Flask项目进管理后台之后自动跳回登录页面,后台接口报错422,权限问题
  • Docker Compose使用自定义用户名密码启动Redis
  • 通过实时动作捕捉加速人形机器人训练
  • 力扣HOT100之动态规划:198. 打家劫舍
  • 循环神经网络(RNN):为什么它能处理时序数据?它真的能减轻过拟合吗?
  • Go语言defer关键字:延迟执行的精妙设计
  • 通用的防御框架,用于抵御(多模态)大型语言模型的越狱攻击
  • MQTT协议,EMQX部署,MQTTX安装学习
  • golang连接sm3认证加密(app)
  • BioID技术在宿主-病原体相互作用领域的应用
  • 《操作系统真相还原》——大战MBR
  • 数据结构——图
  • 大语言模型 24 - MCP 自动操作 提高模型上下文能力 Cursor + Sequential Thinking Server Memory
  • 云游戏混合架构
  • 【机械视觉】Halcon—【六、交集并集差集和仿射变换】
  • AI Agent开发入门笔记(1)
  • C++ 实现 std::move_only_function
  • DeepSeek R1 模型小版本升级,DeepSeek-R1-0528都更新了哪些新特性?
  • UniDream AI绘画——让想象力,无界绽放
  • 可定制化货代管理系统,适应不同业务模式需求!
  • 智能改变一切:当技术革命遇见人类文明
  • OpenCV---pointPolygonTest
  • 【实例】事业单位学习平台自动化操作
  • 【Web应用】若依框架:基础篇12 项目结构
  • DeepSeek 赋能文化遗产数字化修复:AI 重构千年文明密码
  • 如何从ISO镜像直接制作Docker容器基础镜像