当前位置: 首页 > news >正文

Position Embedding 有哪些方式?

1. 什么是Position Embedding?

Position Embedding(位置编码)是用于为序列数据(如文本、时间序列)中的元素添加位置信息的机制。由于Transformer等模型本身不具备处理序列顺序的能力,需要通过显式的位置编码来引入顺序信息。

关键结论:没有位置编码的Transformer模型会将"猫追狗"和"狗追猫"视为完全相同的输入序列。

2. 主要Position Embedding方式

2.1 绝对位置编码 (Absolute Position Embedding)

2.1.1 可学习的位置编码
  • 随机初始化一个位置矩阵,随模型训练更新
  • 常用于原始Transformer和BERT
import torch
import torch.nn as nnclass LearnablePositionEmbedding(nn.Module):def __init__(self, max_len, d_model):super().__init__()self.pe = nn.Parameter(torch.randn(max_len, d_model))  # 可学习参数def forward(self, x):# x: [batch_size, seq_len, d_model]return x + self.pe[:x.size(1), :]  # 添加前seq_len个位置编码
2.1.2 正弦位置编码 (Sinusoidal)
  • Transformer论文提出的确定性函数
  • 不同频率的正弦/余弦函数组合
  • </
http://www.xdnf.cn/news/990577.html

相关文章:

  • @Indexed原理与实战
  • Java大模型开发入门 (3/15): 拥抱官方标准 - 使用OpenAI官方Java SDK调用DeepSeek
  • 航电系统之轨迹克隆技术篇
  • pyvis报错AttributeError: ‘NoneType‘ object has no attribute ‘render‘
  • python打卡day51@浙大疏锦行
  • 期权末日轮实值期权盈利未平仓怎么办?
  • 【多模态/T5】[特殊字符] 为什么视频生成模型还在用T5?聊聊模型选择的学问
  • Windows版PostgreSQL 安装 postgis扩展
  • 大数据下的分页通用架构设计:从随机IO到顺序IO
  • Gartner<Reference Architecture Brief: Data Integration>学习心得
  • 嵌入式程序存储结构
  • HW中常态化反钓鱼训练的具体战略部署
  • 【网络】每天掌握一个Linux命令 - netperf
  • 6. TypeScript 函数
  • 提升集装箱及金属包装容器制造交付效率:数字化项目管理系统的核心优势
  • 异常谋杀案--Java异常处理篇
  • 工程论文: TORL: Scaling Tool-Integrated RL
  • StackOverflowError
  • (javaSE)继承和多态:成员变量,super,子类构造方法,super和this,初始化, protected 继承方式 final关键字 继承与组合
  • Dify-7: RAG 知识系统
  • 什么是项目进度管理?项目进度管理有哪些核心功能?
  • LLM 系列(二) :基础概念篇
  • 力扣-347.前K个高频元素
  • 控制器轨迹生成
  • 编程项目学习,怎么快速掌握
  • 菜鸟带新鸟--EPlan2022创建自己的标识字母
  • 创建和运行线程
  • *res = append(*res, temp) 为什么要使用 temp 作为临时存储值
  • Hydra 工具小白入门教程指导篇
  • 18.进程间通信(四)