当前位置: 首页 > news >正文

注意力机制概念


1.向量余弦夹角

两个向量相乘,计算点积。

两个向量的方法越接近,余弦夹角趋向于0,点积越大,当两个向量垂直时,点积为0的,当两个项链方向相反时,点积为负数。

在语义空间中,两个词的向量约接近,这两个词就越相似。

2.反向传播

损失函数,衡量模型预测结果与真实标签之间差异,反向传播是基于链式法则的梯度计算算法,用于计算损失函数对网络中每个参数的偏导数,指导参数的优化更新,使损失函数逐步最小化。

3.Transformer

文本输入-》词嵌入E;E+位置编码得到的项链通过学习得到q、k、v。

计算注意力:

Attention(Q,K,V)=softmax(Q,K^{T}/\sqrt{d_{k}})V

\sqrt{d_{k}} 是缩放因子。

第一步: query 和 key 进行相似度计算,得到权值

第二步:将权值通过softmax进行归一化,得到每个key对应value的权重系数

第三步:将权重和 value 进行加权求和

Attention机制的本质是对source中元素的valye进行加权求和,query和key用来计算对应value的权重系数。

图片引自https://zhuanlan.zhihu.com/p/542312699

http://www.xdnf.cn/news/545473.html

相关文章:

  • SparkContext介绍
  • flutter设置最大高度,超过最大高度时滑动显示
  • 记录一下flutter项目自己封窗的弹窗
  • Flutter - 集成三方库:数据库(sqflite)
  • java云原生实战之graalvm 环境安装
  • OpenCV 图像读取与显示
  • 【工具使用】STM32CubeMX-USB配置-实现U盘功能
  • Python的collections模块:数据结构的百宝箱
  • 基于 Netty + SpringBoot + Vue 的高并发实时聊天系统设计与实现
  • Windows Ubuntu 目录映射关系
  • Vue2到Vue3迁移问题解析
  • fdisk和parted的区别
  • 数据结构测试模拟题(1)
  • mysql的基础命令
  • pycharm无需科学上网工具下载插件的解决方案
  • Brave 连接 Websocket 失败
  • 【LeetCode 热题 100】有效的括号 / 最小栈 / 字符串解码 / 柱状图中最大的矩形
  • 【Linux基础操作】
  • Linux jq 命令使用详解
  • 《安徽日报》聚焦珈和科技AI创新:智慧虫情测报护航夏粮提质丰产
  • Prompt Tuning:高效微调大模型的新利器
  • Vue3 中使用 provide/inject 实现跨层级组件传值失败的原因及解决方案
  • 分析 redis 的 exists 命令有一个参数和多个参数的区别
  • 区间内最远互质点对
  • 编程最接近现实的模拟---随机数
  • QT6 源(113)篇二:阅读与注释工具栏 QToolBar,给出源码
  • 彭博社聚焦Coinbase数据泄露,CertiK联创顾荣辉警示私钥风险与物理攻击
  • 安全工具配置
  • 21. 自动化测试框架开发之Excel配置文件的测试用例改造
  • [特殊字符] React Fiber架构与Vue设计哲学撕逼实录