当前位置：首页 > backend >正文

PETR/PETRv2

backend 2025/8/24 10:49:50

PE: position embedding

一、PETR算法动机回归

1.1 DETR

输入组成：包含2D位置编码和Object Query
核心流程：通过Object Query直接索引2D特征图，结合位置编码迭代更新Query
特点：整体流程简洁，每个Query代表一个潜在目标

1.2 DETR3D

特征采样机制：通过Query生成3D参考点，反投影到2D图像采样特征
存在问题：

投影偏差：参考点位置出错会导致特征采样失效
特征局限性：仅使用单点特征导致全局信息学习不足
流程复杂度：需要反复投影和特征重采样，影响落地效率

二、PETR网络结构

三种结构的对比

在这里插入图片描述
核心改进：引入3D位置编码生成3D感知特征
关键技术：

特征融合：将2D图像特征与3D位置编码结合形成
流程简化：省略反投影步骤，直接建立3D语义环境
优势：避免特征采样偏差，增强全局特征学习能力

PETR网络结构

在这里插入图片描述

1. Image-view Encoder设计流程

输入输出：处理6视角图像（如nuScenes数据集），输出多尺度特征
Backbone选择：支持ResNet/Swin Transformer等架构
特征处理：

初始特征：维度为（原始图像） 3HW
输出特征：通过FPN得到的多尺度融合特征 C * Hf * Wf

2. 3D Coordinates Generator设计流程

在这里插入图片描述
空间离散化：将相机视锥空间划分为三维网格
坐标转换：
公式：（为相机转换矩阵）
实现步骤：

像素坐标与深度值构成网格点
通过相机内外参转换到世界坐标系
对6视角结果进行归一化处理

输出特性：不同视角转换结果存在重叠区域，共同构成完整3D空间

3. 3D Position Encoder设计流程

在这里插入图片描述

双支路处理：

图像特征支路：使用1×1卷积进行通道降维
坐标支路：通过3D PE模块对齐维度

特征融合：

操作方式：将处理后的2D特征与3D坐标特征相加
输出特性：生成具有位置感知的3D特征

后续处理：展平后与Object Query共同输入Decoder进行预测

三、PETR损失函数

损失组成: 包含分类损失和回归框损失等标准3D检测损失
结构特点: 与DETR3D等模型采用相同的损失函数设计
训练稳定性: 通过CBGS（Class Balanced Grouping and Sampling）策略进行训练优化

四、PETR性能对比

在这里插入图片描述

分辨率影响: 高分辨率图像（如1600×900）性能明显优于低分辨率（1056×384）
Backbone影响: ResNet101性能优于ResNet50，Swin Transformer表现最佳
收敛特性: 相比DETR3D收敛速度较慢，需要更长训练时间
位置编码优势: 3D位置编码（3D PE）相比传统2D PE带来显著性能提升