当前位置：首页 > ds >正文

NLP高频面试题（四十七）——探讨Transformer中的注意力机制：MHA、MQA与GQA

ds 2025/7/22 20:28:18

MHA、MQA和GQA基本概念与区别

1. 多头注意力（MHA）

多头注意力（Multi-Head Attention，MHA）通过多个独立的注意力头同时处理信息，每个头有各自的键（Key）、查询（Query）和值（Value）。这种机制允许模型并行关注不同的子空间上下文信息，捕捉复杂的交互关系。然而，MHA存在一个明显问题：计算和内存开销巨大，尤其在长序列任务中，键值缓存（KV-cache）显著增加，限制了模型在实际推理阶段的可扩展性。

2. 多查询注意力（MQA）

MQA（Multi-Query Attention）提出的解决方案是将所有查询头共享同一组键值对，极大地减少KV缓存大小。这种共享机制提高了推理时的效率和速度，但因缺少独立键值，可能在精细化任务或复杂场景下出现性能下降。

3. 分组查询注意力（GQA）

GQA（Grouped Query Attention）则折中于MHA与MQA之间，提出将查询头分为若干组，每组共享一套键

http://www.xdnf.cn/news/63.html

相关文章：

golang处理时间的包time一次性全面了解

函数递归：递归的概念

实现定时发送邮件,以及时间同步

【口腔粘膜鳞状细胞癌】文献阅读3

《前端性能优化秘籍：打造极致用户体验》

Windows 图形显示驱动开发-WDDM 1.2功能—Windows 8 中的 DirectX 功能改进（四）

Linux之 grep、find、ls、wc 命令

Sentinel源码—4.FlowSlot实现流控的原理二

【NLP 64、基于LLM的垂直领域【特定领域】问答方案】

kotlin + spirngboot3 + spring security6 配置登录与JWT

【安卓开发】【Android Studio】Menu（菜单栏）的使用及常见问题

【HDFS入门】HDFS与Hadoop生态的深度集成：与YARN、MapReduce和Hive的协同工作原理

观察者设计模式详解：解耦通知机制的利器

16-算法打卡-哈希表-两个数组的交集-leetcode(349)-第十六天

Flutter 常用命令

Qt GUI 库总结

gitee新的仓库，Vscode创建新的分支详细步骤

Python 实现日志备份守护进程

MCP理解笔记及deepseek使用MCP案例介绍

每日算法-链表(23.合并k个升序链表、25.k个一组翻转链表)

Java 开发玩转 MCP：从 Claude 自动化到 Spring AI Alibaba 生态整合

pycharm无法识别到本地python的conda环境解决方法

【远程管理绿联NAS】家庭云存储无公网IP解决方案：绿联NAS安装内网穿透

数字孪生城市技术应用典型实践案例汇编（22个典型案例）（附下载）

20.3 使用技巧3

Openfein实现远程调用的方法（实操）

【音视频开发】第五章 FFmpeg基础

最新Spring Security实战教程（十一）CSRF攻防实战 - 从原理到防护的最佳实践

逻辑回归 (Logistic Regression)

山东大学软件学院创新项目实训开发日志（18）之对话自动生成标题设为用户第一次对话发的文字