当前位置: 首页 > backend >正文

Attention注意力机制

Attention核心思想

作用:处理时序问题

核心思想:处理序列数据时,网络应该更加关注输入中重要的部分,忽略不重要的部分。

要怎么做到? 通过学习不同部分的权重,将输入的序列中的重要部分显式加权,使得模型可以更好地关注与输出有关的信息。Transformer中的Scaled Dot-Product Attention(缩放点积注意力)是自注意力机制的核心组件,其作用是通过计算查询(Query)、键(Key)和值(Value)之间的相关性,动态地分配权重并聚合信息。

核心组件:Query、Kay、Value

Query:表示当前需要关注的位置或内容,通常是编码器/解码器的当前输入向量,与其他位置的Key比较,决定哪些部分需要被关注。

Key:作为被检索的“标签”,用于与Query计算相关性,是与Query同源的输入序列,Key和Query的点积分数决定了注意力的权重。

Value:实际携带的信息,根据注意力权重被聚合,与Key同源的输入序列,常与Key共享输入但通过不同权重矩阵投影,最终的注意力输出是Value的加权和。

三者之间的关系

Attention为什么要除以sqrt(dk)?对注意力权重进行缩放,以确保数值的稳定性。

http://www.xdnf.cn/news/10565.html

相关文章:

  • 【git-首次初始化本地项目、关联远程仓库】
  • 飞牛fnNAS存储空间模式详解
  • 缓存击穿、缓存雪崩、缓存穿透以及数据库缓存双写不一致问题
  • Transformer相关
  • 辅助角公式
  • 财管-0-战略和战略管理
  • Spring Boot + MyBatis 实现的简单用户管理项目的完整目录结构示例
  • AI 医疗影像诊断:技术实现、临床应用与未来趋势 —— 以肺部 CT 早期肺癌检测为例
  • 文言文停词库 | 古文停词库 | 624个简体停词 |文言文python分词库-thulac
  • Baklib知识中台加速企业服务智能化实践
  • 达梦分布式集群DPC_分布式事务理解_yxy
  • 机器学习算法-k-means
  • LeetCode 40.组合总和II:含重复元素的组合问题去重策略详解
  • 生物化学笔记:神经生物学概论【脑客中国·科研】第186位讲者 | 何超:大脑的觉醒与睡眠
  • LCA(最近公共祖先)与树上差分
  • 【Dv3Admin】工具异常处理配置文件解析
  • 智能指针unique
  • 【MySQL】第13节|MySQL 中模糊查询的全面总结
  • Codeforces Round 1028 (Div. 2)(ABC)
  • JAVA实战开源项目:精简博客系统 (Vue+SpringBoot) 附源码
  • Python打卡训练营Day42
  • 阻塞队列BlockingQueue解析
  • Window系统程序加入白名单
  • LangChain-结合智谱AI大模型实现自定义tools应用实例
  • 吴恩达MCP课程(4):connect_server_mcp_chatbot
  • springboot中@Async做异步操作(Completable异步+ThreadPoolTaskExecutor线程池+@Async注解)
  • shp转3d tiles在cesium渲染楼宇白膜
  • Linux 驱动之设备树
  • Leetcode 2093. 前往目标城市的最小费用
  • SAR ADC 异步逻辑设计