当前位置: 首页 > news >正文

不同头会关注输入序列中不同的部分和不同维度所蕴含的信息,这里的头和嵌入维度不是对应的,仅仅是概念上的吗?

为什么三头QKV 矩阵和全部的词嵌入向量矩阵相乘,能区分关注不同维度,谁决定的:独立的权重矩阵初始化和多头计算过程

在这里插入图片描述

在多头注意力机制中,虽然是三头的QKV矩阵分别和全部的词嵌入向量矩阵相乘,但最终能区分关注不同维度, 这是由独立的权重矩阵初始化和多头计算过程决定的

独立的权重矩阵初始化

每个注意力头都有独立初始化的Q(查询)、K(键)、V(值)权重矩阵。在训练过程中,这些权重矩阵通过反向传播和梯度下降进行优化,使得每个头能够学习到不同的特征表示。

比如,我们假设词嵌入向量维度为dmodel=12d_{model} = 12d

http://www.xdnf.cn/news/1178515.html

相关文章:

  • 调节广告adload的算法:Contextual Bandits、多臂老虎机 Policy Gradient、Q-learning
  • C++ 中打开文件的多种方式及相关流类
  • 【重学数据结构】哈希表 Hash
  • 【学习路线】JavaScript全栈开发攻略:前端到后端的完整征程
  • MySQL高可用部署
  • MySQL的底层原理--InnoDB记录存储结构
  • Mysql大数据架构设计:当表中数据超过800万时,对数据表进行分表操作,以及分页查询优化详解
  • C++扩展 --- 并发支持库(下)
  • 【YOLO系列】YOLOv4详解:模型结构、损失函数、训练方法及代码实现
  • PA333H-2K功率计:光伏行业高压测试“刚需”
  • 智慧驾驶疲劳检测算法的实时性优化
  • ARM 学习笔记(四)
  • 嵌入式软件--stm32 DAY 9 定时器
  • Springmvc的自动解管理
  • 一文说清楚Hive中常用的聚合函数[collect_list]
  • 一文读懂 HTTPS:证书体系与加密流程
  • Percona pt-archiver 出现长事务
  • GISBox实操指南:如何将IFC文件高效转换为3DTiles格式‌‌
  • 【MAC电脑系统变量管理】
  • 基于Zig语言,opencv相关的c++程序静态交叉编译
  • 微服务-springcloud-springboot-Skywalking详解(下载安装)
  • 设置后轻松将 iPhone 转移到 iPhone
  • 基于SpringBoot+Uniapp的健身饮食小程序(协同过滤算法、地图组件)
  • Socket编程入门:从IP到端口全解析
  • C语言(长期更新)第5讲:数组练习(三)
  • Apache 消息队列分布式架构与原理
  • 开发避坑短篇(5):vue el-date-picker 设置默认开始结束时间
  • LLM层归一化:γβ与均值方差的协同奥秘
  • 力扣面试150题--在排序数组中查找元素的第一个和最后一个位置
  • 5.7 input子系统