当前位置：首页 > news >正文

GQA（Grouped Query Attention）：分组注意力机制的原理与实践《二》

news 2025/6/6 21:25:38

🌟 Grouped Query Attention (GQA) 核心公式

GQA 的目标是减少 Key/Value 的数量，通过引入共享的 Key/Value 组，实现更高效的计算。

设：

$\in \mathbb{R}^{T \times d}$ 是输入序列；
$h$ 为总头数， $g$ 为 K/V 分组数（通常 $g < h$ ）；
每组包含 $h_g = \frac{h}{g}$ 个 Query；
每个头的维度为 $d_h = \frac{d}{h}$ 。

✅ Query/Key/Value 计算

$xW^Q,\quad K = xW^K,\quad V = xW^V$

其中：

$\in \mathbb{R}^{T \times h \times d_h}$
$\in \mathbb{R}^{T \times g \times d_h}$

说明：Q 拆分成 $h$ 个头，K 和 V 只拆分成 $g$ 个组，每 $h_g$ 个 Q 共享一组 K/V。

✅ 注意力权重计算（每个头 $i$ ）

令 $\left\lfloor \frac{i}{h_g} \right\rfloor$ ，表示第 $i$ 个头对应第 $j$ 个 K/V 组：

$\text{Attention}_i = \text{softmax}\left( \frac{Q_i K_j^\top}{\sqrt{d_h}} \right)V_j$

✅ 最终输出拼接

$\text{Output} = \text{Concat}(\text{Attention}_1, \ldots, \text{Attention}_h)W^O$

其中 $W^O$ 为输出变换矩阵。

📌 总结

GQA 在保持多头 Query 精度的同时，大幅减少了 Key/Value 的计算和存储开销，适用于大规模模型（如 LLaMA 2/3、Qwen2 等）。

查看全文

http://www.xdnf.cn/news/877519.html

如何选择合适的分库分表策略

前端表单验证进阶：如何使用 jQuery.validator.addMethod() 编写自定义验证器(全是干货，建议收藏)

用布局管理器grid实现计算机界面

Python爬虫爬取天猫商品数据，详细教程【Python经典实战项目】

VBA中类的解读及应用第二十四讲：把源数据赋给类利用类完成查找

【AI News | 20250604】每日AI进展

LangChain深度解析：LLM应用开发利器

Java Lombok @Data 注解用法详解

量子通信：从科幻走向现实的未来通信技术

四、Sqoop 导入表数据子集

使用C++调用python库

东西方艺术的对话：彰显中国传统艺术之美与价值

主流Agent开发平台学习笔记：扣子罗盘coze loop 功能拆解

Vue插件

租物理服务器，如何避开 “高价陷阱”

MES管理系统的核心数据采集方式有哪些

Linux 环境下 PPP 拨号的嵌入式开发实现

CMake在VS中使用远程调试

python实现合并多个dot文件

linux系统--iptables实战案例

在本地电脑中部署阿里 Qwen3 大模型及连接到 Elasticsearch

if(!p)等价于 if（p==0)

🌟 Grouped Query Attention (GQA) 核心公式

✅ Query/Key/Value 计算

✅ 注意力权重计算（每个头 i i i）

✅ 最终输出拼接

📌 总结

相关文章：

✅ 注意力权重计算（每个头 $i$ ）