当前位置：首页 > ops >正文

大模型-attention汇总解析之-MQA

ops 2025/7/18 6:55:52

MQA，即 “Multi-Query Attention”，是减少 KV Cache 的一次的一种大胆尝试，首次提出自《Fast Transformer Decoding: One Write-Head is All You Need》，在2019 年减少 KV Cache 就已经是研究人员非常关注的一个课题了。MQA 的思路很简单，直接让所有 Attention Head 共享同一个 K、V。

论文中伪代码，

Todo: k, v 如何选择？实际上是多头共同使用一个k, v 缓存。

一般的multi head attention 的qkv的头的数量都一样，而multi query attention的q的头数量保持不变，k，v的头数量都变为1。

论文中的计算结果：

这样子就直接将 KV Cache 减少到了原来的1/h ，这是非常可观的, 已经简洁的不能再简洁了。使用 MQA 的模型包括 PaLM 、StarCoder、Gemini 等。

http://www.xdnf.cn/news/9993.html

相关文章：

(11)-java+ selenium-＞元素定位之By_tag_name

编译器优化和实例

Haproxy搭建Web集群

常见跨域问题解决

Flask项目进管理后台之后自动跳回登录页面，后台接口报错422，权限问题

Docker Compose使用自定义用户名密码启动Redis

通过实时动作捕捉加速人形机器人训练

力扣HOT100之动态规划：198. 打家劫舍

循环神经网络（RNN）：为什么它能处理时序数据？它真的能减轻过拟合吗？

Go语言defer关键字：延迟执行的精妙设计

通用的防御框架，用于抵御（多模态）大型语言模型的越狱攻击

MQTT协议,EMQX部署,MQTTX安装学习

golang连接sm3认证加密（app）

BioID技术在宿主-病原体相互作用领域的应用

《操作系统真相还原》——大战MBR

数据结构——图

大语言模型 24 - MCP 自动操作提高模型上下文能力 Cursor + Sequential Thinking Server Memory

云游戏混合架构

【机械视觉】Halcon—【六、交集并集差集和仿射变换】

AI Agent开发入门笔记（1）

C++ 实现 std::move_only_function

DeepSeek R1 模型小版本升级，DeepSeek-R1-0528都更新了哪些新特性？

UniDream AI绘画——让想象力，无界绽放

可定制化货代管理系统，适应不同业务模式需求！

智能改变一切：当技术革命遇见人类文明

OpenCV---pointPolygonTest

【实例】事业单位学习平台自动化操作

【Web应用】若依框架：基础篇12 项目结构

DeepSeek 赋能文化遗产数字化修复：AI 重构千年文明密码

如何从ISO镜像直接制作Docker容器基础镜像