当前位置: 首页 > news >正文

RoPE长度外推:外插内插

RoPE:假定 α \alpha α是定值 其中一半位置是用cos表示的
cos ⁡ ( k α − 2 i d ) \cos(k\alpha^{-\frac{2i}{d}}) cos(kαd2i)(另一半是sin)(d是词嵌入维度)
当太长如何解决:
1 直接不管—外插
缺点:超过一定长度性能急剧下降。(较大时,对应的很多位置编码都是训练时未见过)
2 k映射为 k/λ—内插
cos ⁡ ( k λ α − 2 i d ) \cos(\frac{k}{\lambda}\alpha^{-\frac{2i}{d}}) cos(λkαd2i)
相当于插值了 来表示更多位置
缺点:更密集了 分辨率更低 相邻两个位置的差异变小
3 NTK方案
乘上随i变化的系数 λ d d − 2 \lambda^\frac d{d-2} λd2d,于是编码方案变为 cos ⁡ ( k α − 2 i d λ − 2 i d − 2 ) \cos(k\alpha^-\frac{2i}d\lambda^{-\frac{2i}{d-2}}) cos(kαd2iλd22i)
当i较小时 也就是高频时 短周期时 该系数的指数接近0 系数接近1 等于没变动 也就是外插
当i较大时 也就是低频时 长周期时 该系数的指数接近-1 系数接近1/λ 也就是除了个λ 相当于插值 也就是内插
综上 高频部分外插 低频部分内插
如何区分高频低频:
对于 cos ⁡ ( k α − 2 i d ) \cos(k\alpha^{-\frac{2i}{d}}) cos(kαd2i)公式
内部指数图像是一条
在这里插入图片描述
当i小的时候是快速变化的 因此称之为高频 其实高频指的就是i小的时候 也就是维度低的时候

http://www.xdnf.cn/news/365581.html

相关文章:

  • ResNet详解
  • 企业名录搜索软件靠谱吗 企业名录搜索软件怎么使用
  • LSTM的简单模型
  • git做commit信息时的校验
  • C++ —— 可变参数
  • D720201 PCIE 转USB HUB
  • 值拷贝、浅拷贝和深拷贝
  • 利用混合磁共振成像 - 显微镜纤维束成像技术描绘结构连接组|文献速递-深度学习医疗AI最新文献
  • DAY04:Vue.js 指令与事件处理深度解析之从基础到实战
  • 弹窗表单的使用,基于element-ui二次封装
  • 十三、基于大模型的在线搜索平台——整合function calling流程
  • 萤石无插件取流巡检组件,便捷支持多屏预览与回放
  • MCP(Model Context Protocol,模型上下文协议)
  • tcpdump 的用法
  • [sklearn] 特征工程
  • LeRobot 项目部署运行逻辑(五)——intelrealsense.py/configs.py
  • 【PostgreSQL】不开启归档模式,是否会影响主从库备份?
  • OrangePi Zero 3学习笔记(Android篇)4 - eudev编译(获取libudev.so)
  • 边界网关协议 - BGP【高级】
  • 蓝绿激光对潜通信介绍
  • 【官方题解】StarryCoding 入门教育赛 2 | acm | 蓝桥杯 | 新手入门
  • 画家沈燕的山水实验:在传统皴法里植入时代密码
  • mysql性能提升方法大汇总
  • 【kafla扫盲】FROM GPT
  • 基于51单片机步进电机控制—9个等级
  • async/await 原理揭秘
  • Windows11下通过Docker安装Redis
  • USB学习【4】协议层数据格式
  • C++八股 —— 函数指针与指针函数
  • PPI-ID: 德克萨斯大学研究团队最新款蛋白-蛋白互作(PPI)预测工具上线