当前位置：首页 > ds >正文

Rotary Positional Embedding

ds 2025/7/3 8:17:07

先介绍几个之前的PE：

1. Absolute Positional Embedding

比如 Transformer原论文中的PE。

问题：理论上讲，位置1，2对应的PE应该在距离上比位置1，500的PE更接近，但APE做不到这一点。

2.Relative Positional Embedding

解决了APE中的问题，但也带来了计算效率低下等问题。此处不对RPE做详细介绍

3.Learned Positional Embedding

每个位置的PE通过学习得到。

问题：如果训练集中的Sequence Length都是512以内，那么当推理时遇到长度长于512得到sequence时，就会出问题了。

4.Rotary Positional Embedding

不太懂旋转矩阵的可以参考这个链接

RoPE怎么做的？请看：
在这里插入图片描述
当embedding维度为2时，position的位置每往后一个，就把embedding对应维度旋转θ角度，这就是RoPE的核心思想。

再看论文的公式13：
在这里插入图片描述
其中 $x_m$ 表示位置 $m$ 处的embedding（由embedding层得到，还不含PE信息）； ${q,k\}$ 表示得到的是 $q$ 或者 $k$ 的表示（不含 $v$ ）。

矩阵乘法的后两项，就是把二维的embedding映射到 $q$ 和 $k$ 的简单映射（四个W都是标量）。这里的操作和Attention Is All You Need中得到 $q$ 或者 $k$ 的操作是完全一样的（如果去掉Attention Is All You Need中的PE的话）。

而矩阵的第一项，就是把矩阵做一个简单的旋转，这一点我们已经提到过了。

当embedding维度大于2的时候怎么办呢？我们只需要将维度2个2个地进行旋转就行了：
在这里插入图片描述
原始论文也对这一过程进行了图解说明：

参考链接

参考链接1
参考链接2
参考链接3

查看全文

http://www.xdnf.cn/news/3859.html

FastAPI系列14：API限流与暴力破解防护

学习黑客资产威胁分析贴

Linux：时间同步服务器

深入理解C++中的指针与引用：区别、应用与最佳实践

《Spring Boot实战指南：从零开始构建现代Java应用》

从实列中学习linux shell11 ：在 shell 中对于json的解析 jq 和awk 如何选择，尤其在数据清洗，数据重新组织中的应用

叠层阻抗线框

【信息系统项目管理师-论文真题】2011下半年论文详解（包括解题思路和写作要点）

1penl配置

【Go类库分享】mcp-go Go搭建MCP服务

HTTPcookie与session实现

洛谷 P1850 [NOIP 2016 提高组] 换教室

【家政平台开发(100)】终结篇，破局·拓新：家政平台未来发展的战略蓝图

安卓基础（startActivityForResult和onActivityResult）

【Mytais系列】Update语句执行流程

二、shell脚本--变量与数据类型

Python datetime库的用法 Python从入门到入土系列第3篇-洞察标准库DateTime

【Spring】Spring中8种常见依赖注入使用示例

实战项目：基于控制台与数据库的图书管理系统开发指南

C语言中memmove和memcpy

智慧校园整体解决方案-5PPT(65页)

python中的异常处理

【CF】Day50——Codeforces Round 960 (Div. 2) BCD

数学实验Matlab

多把锁以及线程死锁问题

Linux-GRUB全面指南

1. Absolute Positional Embedding

2.Relative Positional Embedding

3.Learned Positional Embedding

4.Rotary Positional Embedding

参考链接

相关文章：