当前位置: 首页 > ds >正文

Rotary Positional Embedding

先介绍几个之前的PE:

1. Absolute Positional Embedding

比如 Transformer原论文中的PE。

问题:理论上讲,位置1,2对应的PE应该在距离上比位置1,500的PE更接近,但APE做不到这一点。

2.Relative Positional Embedding

解决了APE中的问题,但也带来了计算效率低下等问题。此处不对RPE做详细介绍

3.Learned Positional Embedding

每个位置的PE通过学习得到。

问题:如果训练集中的Sequence Length都是512以内,那么当推理时遇到长度长于512得到sequence时,就会出问题了。

4.Rotary Positional Embedding

不太懂旋转矩阵的可以参考这个链接

RoPE怎么做的?请看:
在这里插入图片描述
当embedding维度为2时,position的位置每往后一个,就把embedding对应维度旋转θ角度,这就是RoPE的核心思想。

再看论文的公式13:
在这里插入图片描述
其中 x m x_m xm表示位置 m m m处的embedding(由embedding层得到,还不含PE信息); { q , k } \{q,k\} {q,k}表示得到的是 q q q或者 k k k的表示(不含 v v v)。

矩阵乘法的后两项,就是把二维的embedding映射到 q q q k k k的简单映射(四个W都是标量)。这里的操作和Attention Is All You Need中得到 q q q或者 k k k的操作是完全一样的(如果去掉Attention Is All You Need中的PE的话)。

而矩阵的第一项,就是把矩阵做一个简单的旋转,这一点我们已经提到过了。

当embedding维度大于2的时候怎么办呢?我们只需要将维度2个2个地进行旋转就行了:
在这里插入图片描述
原始论文也对这一过程进行了图解说明:
在这里插入图片描述

参考链接

参考链接1
参考链接2
参考链接3

http://www.xdnf.cn/news/3859.html

相关文章:

  • FastAPI系列14:API限流与暴力破解防护
  • 学习黑客资产威胁分析贴
  • Linux:时间同步服务器
  • 深入理解C++中的指针与引用:区别、应用与最佳实践
  • 《Spring Boot实战指南:从零开始构建现代Java应用》
  • 从实列中学习linux shell11 :在 shell 中 对于json的解析 jq 和awk 如何选择,尤其在数据清洗,数据重新组织中的应用
  • 叠层阻抗线框
  • 【信息系统项目管理师-论文真题】2011下半年论文详解(包括解题思路和写作要点)
  • 1penl配置
  • 【Go类库分享】mcp-go Go搭建MCP服务
  • HTTPcookie与session实现
  • 洛谷 P1850 [NOIP 2016 提高组] 换教室
  • 【家政平台开发(100)】终结篇,破局·拓新:家政平台未来发展的战略蓝图
  • 安卓基础(startActivityForResult和onActivityResult)
  • 【Mytais系列】Update语句执行流程
  • 二、shell脚本--变量与数据类型
  • Python datetime库的用法 Python从入门到入土系列第3篇-洞察标准库DateTime
  • 【Spring】Spring中8种常见依赖注入使用示例
  • 健康养生新主张
  • web应用开发说明文档
  • matlab学习之旅
  • 数据结构---
  • 实战项目:基于控制台与数据库的图书管理系统开发指南
  • C语言中memmove和memcpy
  • 智慧校园整体解决方案-5PPT(65页)
  • python中的异常处理
  • 【CF】Day50——Codeforces Round 960 (Div. 2) BCD
  • 数学实验Matlab
  • 多把锁以及线程死锁问题
  • Linux-GRUB全面指南