当前位置: 首页 > news >正文

GQA(Grouped Query Attention):分组注意力机制的原理与实践《二》

🌟 Grouped Query Attention (GQA) 核心公式

GQA 的目标是减少 Key/Value 的数量,通过引入共享的 Key/Value 组,实现更高效的计算。

设:

  • x ∈ R T × d x \in \mathbb{R}^{T \times d} xRT×d 是输入序列;
  • h h h 为总头数, g g g 为 K/V 分组数(通常 g < h g < h g<h);
  • 每组包含 h g = h g h_g = \frac{h}{g} hg=gh 个 Query;
  • 每个头的维度为 d h = d h d_h = \frac{d}{h} dh=hd

✅ Query/Key/Value 计算

Q = x W Q , K = x W K , V = x W V Q = xW^Q,\quad K = xW^K,\quad V = xW^V Q=xWQ,K=xWK,V=xWV

其中:

  • Q ∈ R T × h × d h Q \in \mathbb{R}^{T \times h \times d_h} QRT×h×dh
  • K , V ∈ R T × g × d h K, V \in \mathbb{R}^{T \times g \times d_h} K,VRT×g×dh

说明:Q 拆分成 h h h 个头,KV 只拆分成 g g g 个组,每 h g h_g hgQ 共享一组 K/V


✅ 注意力权重计算(每个头 i i i

j = ⌊ i h g ⌋ j = \left\lfloor \frac{i}{h_g} \right\rfloor j=hgi,表示第 i i i 个头对应第 j j jK/V 组:

Attention i = softmax ( Q i K j ⊤ d h ) V j \text{Attention}_i = \text{softmax}\left( \frac{Q_i K_j^\top}{\sqrt{d_h}} \right)V_j Attentioni=softmax(dh QiKj)Vj


✅ 最终输出拼接

Output = Concat ( Attention 1 , … , Attention h ) W O \text{Output} = \text{Concat}(\text{Attention}_1, \ldots, \text{Attention}_h)W^O Output=Concat(Attention1,,Attentionh)WO

其中 W O W^O WO 为输出变换矩阵。


📌 总结

GQA 在保持多头 Query 精度的同时,大幅减少了 Key/Value 的计算和存储开销,适用于大规模模型(如 LLaMA 2/3、Qwen2 等)。

http://www.xdnf.cn/news/877519.html

相关文章:

  • 如何选择合适的分库分表策略
  • 前端表单验证进阶:如何使用 jQuery.validator.addMethod() 编写自定义验证器(全是干货,建议收藏)
  • 用布局管理器grid实现计算机界面
  • Python爬虫爬取天猫商品数据,详细教程【Python经典实战项目】
  • VBA中类的解读及应用第二十四讲:把源数据赋给类利用类完成查找
  • 【AI News | 20250604】每日AI进展
  • Markdown基础(1.2w字)
  • OPC UA 知识概述
  • 行业年终工作总结汇报PPT模版分享
  • 并发编程的问题与管程
  • LangChain深度解析:LLM应用开发利器
  • Redis常见使用场景解析
  • 【C语言个数最大最多】2022-4-1
  • 网络攻防技术十二:社会工程学
  • Mysql选择合适的字段创建索引
  • Java Lombok @Data 注解用法详解
  • 量子通信:从科幻走向现实的未来通信技术
  • 四、Sqoop 导入表数据子集
  • 使用C++调用python库
  • 东西方艺术的对话:彰显中国传统艺术之美与价值
  • 主流Agent开发平台学习笔记:扣子罗盘coze loop 功能拆解
  • Vue插件
  • 租物理服务器,如何避开 “高价陷阱”
  • MES管理系统的核心数据采集方式有哪些
  • Linux 环境下 PPP 拨号的嵌入式开发实现
  • CMake在VS中使用远程调试
  • python实现合并多个dot文件
  • linux系统--iptables实战案例
  • 在本地电脑中部署阿里 Qwen3 大模型及连接到 Elasticsearch
  • if(!p)等价于 if(p==0)