当前位置：首页 > news >正文

51c自动驾驶~合集40

news 2025/7/3 16:21:02

我自己的原文哦~ https://blog.51cto.com/whaosoft/12800946

#车道线检测

中科院最新综述

大家好，很荣幸能受到的邀请来为大家分享我们的一篇关于单目车道线检测的综述。与papaer里展现的顺序和内容可能有所不同，在这里笔者想更多地讲一讲本文的成文过程以及各类方法的发展史，因此对于各方法的详细介绍读者可以参考本文原文，这里不会花费过多笔墨来重述。关于本文原文中提到的方法，以及更多未提到的方法的论文和代码均可在笔者构建的GitHub仓库里找到，笔者后续也会不断更新，欢迎大家关注，也欢迎业内同仁指正，共同探讨。

论文链接：https://arxiv.org/abs/2411.16316
开源链接：https://github.com/Core9724/Awesome-Lane-Detection

最开始入门车道线检测的时候要从去年春季，看了几篇22年顶会顶刊的2D车道线检测论文（那一年的相关论文很高产，仅CVPR就有5篇）说起。起初对于车道线检测的了解也仅限于它们在文中related work部分里提到的有基于分割的、基于anchor的、基于曲线的方法等等。但是还有一些地方不明白，相信不少刚接触这个领域的朋友也有同样的疑问：

1、为什么要区分不同的实例？而且一些论文里专门针对解决这个问题花费大量篇幅讲解，可是另一些论文里似乎又没怎么提及；

2、为什么用语义分割得到的车道线mask还要进一步拟合成点集或曲线？很多论文里只说了用分割做的话需要进一步后处理拟合，但没说这样做的原因；

带着这些疑问，笔者又翻阅了近年来的一些相关综述，期望能得到答案。遗憾的是，当时最新的质量较高的综述只到21年为止，里面包含的方法基本都是2D车道线检测且用语义分割来做的方法，也没有强调实例区分和曲线拟合这两个问题。

所幸之后接触到了一些自动驾驶工程师，和他们交流一番后才明白：下游规划控制任务实际上只关心车道线中心线。如果不区分车道线实例以及缺乏矢量化格式（点集或曲线方程）的话，就没法计算了。

考虑到以往的综述年代有点老，近年来很多新的方法都不包含，于是萌生了写一篇车道线检测的综述的想法。但是当时笔者只对2D车道线检测理解比较深入，而近年来也有3D车道线检测的工作出现，所以在综述范围上就又有疑问了：只写2D还是2D和3D都写？

后来在看了3D车道线检测的相关论文后才明白：下游需要的都是基于自车的3D信息，2D车道线检测结果还需要IPM投影得到3D车道线才能用。然而IPM假设地面平坦，在上下坡时会不准确，所以3D车道线检测任务诞生。

因此笔者认为有必要把2D车道线检测和3D车道线检测都写进去，它们之间的关系是很密切的。考虑到传统方法现在基本很少用了，目前基本都是深度学习主导。另外LiDAR-based的方案太少，目前在这个领域里主流传感器还是单目相机。于是确定了最终选题：基于深度学习的单目车道线检测综述。

1、本文组织结构

以往的综述过分关注每个具体的方法的网络结构和损失函数，虽然它们对于深度学习来说也很重要，但是并不完全构成解决车道线检测任务本身挑战的关键。所以本文从车道线检测任务的完整流程和挑战出发，先总结了车道线检测算法的四个核心设计，然后从这四个方面展开方法回顾。

先说车道线检测任务的完整流程和挑战：

完整流程：从前视图（Front View，以下简称FV）得到基于自车坐标系下的3D车道线，即鸟瞰图（Bird‘s Eye View，以下简称BEV）结果，实现方式如图1所示，包括：

1、2D车道线检测+IPM；

2、3D车道线检测。

挑战：

1、精确的定位和实时处理能力；

2、能够应对车道线被遮挡、光照等干扰因素影响的情况；

3、区分不同实例；

4、以矢量化格式呈现车道线检测结果（点集或曲线方程）。

基于完整流程和挑战，笔者总结了车道线检测算法的四个核心设计：

1、任务范式，即如何区分车道线实例；

2、车道线建模，即将车道线表示为一组网络可学习的参数；

3、全局上下文补充，即应对那些不明显的车道线；

4、（相机）透视效应消除，即为下游提供准确的3D车道线。

因此本文对现有方法的回顾主要从以上四个核心设计为角度开展。本文的贡献如下：

1、对基于深度学习的单目车道线检测并且首次同时包含2D和3D车道线检测方法的全面综述；

2、本文先介绍了车道线检测算法的四个核心设计，然后从上述角度系统地总结现有方法。以往的相关综述通常对某个方法的具体网络结构和损失函数做详细介绍，然后附上相应方法的网络结构图。笔者更倾向于把每一类方法都总结为一个pipeline，然后针对每个pipeline介绍其框架下的每个方法，这样可以帮助读者更好地理解；

3、考虑到不同方法做实验时使用的设备可能有所不同，直接用其原论文中报告的速度来进行比较肯定是不公平的。所以除了比较不同方法在不同benchmark下的性能以外，还在统一环境下重新测试了代表性方法的速度；

4、近年来还有一些工作（多任务感知、视频车道线检测、在线高精地图构建、车道线拓扑推理）也很受关注，在任务流程上可以视为单目车道线检测的升级，所以笔者在文中也对它们进行了介绍。基于这些介绍，读者可以获得一份关于车道线检测研究热点发展的路线图。

本文的组织结构如图2所示。

2、数据集和评估指标2.1 数据集

对于2D车道线检测，最常用的四个数据集：Tusimple、CULane、LLAMAS和CurveLanes。现有2D方法基本上选择三个做实验，CULane和Tusimple，外加LLAMAS和CurveLanes二选一。

对于3D车道线检测，虽然LLAMAS也有3D车道线标注，但最常用的还是Apollo 3DLane、ONCE-3DLanes和OpenLane这三个。

这里多说一些有关OpenLane、OpenLane-V和OpenLane-V2三个数据集的区别，以防读者混淆。OpenLane是上海AI Lab在ECCV 2022提出的3D车道线检测数据集，是对Waymo Open数据集中部分FV图像的车道线进行标注得到的；OpenLane-V是ICCV 2023的RVLD这篇文章的作者团队基于OpenLane的部分2D车道线标注修改得到的2D车道线检测数据集；OpenLane-V2也是上海AI Lab提出的数据集，但它和OpenLane关系其实不大，它是基于nuScenes和Argoverse2两个环视场景数据集构建而来的，并且标注主要集中在中心线、红绿灯和拓扑关系，曾用于CVPR 2023拓扑挑战赛，最终发表于NeurIPS 2023。

2.2 评估指标(TP的判定标准)

不同benchmark的评估指标都有所不同，不过F1-Score是几乎所有数据集的首要评估指标，而F1-Score的计算又离不开TP的判定。因此本文主要介绍不同主流benchmark的TP判定标准。

对于2D车道线检测，TP判定主要以Tusimple和CULane为代表。Tusimple主要衡量每个点。当纵坐标相同时，如果与GT点的水平距离小于20像素，则认为预测点正确。进而当预测的车道线包含不少于85%的正确点时，该预测线被视为TP。相比之下，CULane更注重衡量车道线整体，车道线被视为若干像素宽的mask，如果预测的车道线mask和GT的IoU大于75%则被视为TP。

对于3D车道线检测，TP判定主要以OpenLane和ONCE-3DLanes为代表。OpenLane：当一个预测车道线有75%的覆盖y位置与GT的逐点距离小于允许的最大距离（1.5米）时，被视为TP；ONCE-3DLanes：首先，在z-x平面（即俯视图）上使用CULane的计算IoU的方法来评估预测与地面实况之间的对齐情况。其次，如果IoU超过预定义阈值，则使用单侧倒角距离（详见ONCE-3DLanes原文或本文附录）计算相机坐标中的曲线匹配误差。如果该单侧倒角距离低于指定阈值，则预测线被归为TP。

3、2D车道线检测方法

3.1 分类框架

以往的相关综述主要关注具体网络结构和损失函数。而实例级判别和矢量化结果表达往往被忽视。相比之下，本文对二维车道线检测方法的分类主要依据上述两个方面。

如图3所示，首先，对于实例级判别，根据完成任务所需的阶段数分为两类范式：

（a）基于分割的方法（segmentation-based methods，两阶段），按照一定的顺序完成车道线识别和实例区分。图4总结了这类方法中实例区分的通用流程。

（b）基于目标检测的方法（object detection-based methods，单阶段），直接同时完成实例区分和定位。这一优势源自目标检测算法的一般流程（并行地对一组候选proposal执行分类和回归）。

其次，矢量化结果表示要求算法考虑如何将车道线建模为一组用于神经网络学习的值，即车道线建模。基于分割的方法可以进一步分为基于mask的建模、基于grids的建模和基于keypoints的建模。对于基于目标检测的方法，采用bounding box来建模细长的车道线往往并不合理。因为目标检测方法生成的边界框可能会相互遮挡，而且一个框内可能包含多个车道线实例。为了与一般的目标检测范式对齐，这些方法设计了独特的“bounding box”来建模车道线，包括基于line anchor的建模和基于curve的建模。每种车道线建模方式的细节如图5所示。

另外，大多数现有的2D车道线检测数据集甚至为被车辆严重遮挡或受极端天气条件影响的车道线提供了完整的标注。这促使许多算法在其网络里精心设计特殊结构补充全局上下文来解决这一挑战，无论它们属于哪个分类体系。因此，在回顾这些方法时，还阐述了它们为解决这一问题所采取的措施（篇幅限制，在这里未详细列出，具体可见本文原文）。根据上述分类标准，表2详细比较了具有代表性的二维车道线检测工作。

注：其实不少论文里的related work部分都有把现有的2D车道线检测方法分为segmentation-based、anchor-based、keypoints-based、curve-based等等。但是这个分类仅反映了不同方法的车道线建模方式。实例级判别很少被提及，原因一方面是那些基于anchor或者曲线的方法本身遵循目标检测的范式，不需要考虑实例判别问题；另一方面是在related work里也确实没必要分的这么细（再细分就超页数了）。但对于综述来说，有必要把这个上下级关系为读者解释清楚，所以本文针对实例级判别和车道线建模方式进行了二级分类。另外，不少论文的related work里将UFLD、CondLaneNet等方法也归为anchor-based，这一点可能源自于UFLD原论文中的“row-anchor”表述。但实际上它们是遵循着“实例区分、逐行/列分类”一个顺序的过程，需要额外考虑实例判别过程，并不符合目标检测并行“分类+回归”的特点，因此本文将其划分至基于分割和基于grids的建模的方法。

3.2 基于分割的方法3.2.1 基于mask的建模

基于mask的建模方法，即将车道线检测视为语义分割任务，也是早期被广泛采用的方法。不过和一般的语义分割任务不同的是，一般的语义分割任务只分割可见的物体，但是车道线检测是要能分割出那些不明显的车道线的。所以这一类的大部分方法在解码器上采样之前引入了专门的结构来增强特征表示，比如VPGNet、SCNN、SAD、EL-GAN、RESA、PriorLane等方法。

而对于实例级判别来说，一个比较直接的方法是用自顶向下（先有实例后有语义类别）的实例分割框架，比如Mask R-CNN或YOLACT，以实现车道线实例级别的区分和分割。然而，目标检测方法生成的边界框可能包含多个车道线实例，后续的语义分割过程中区分它们会变得复杂。

SCNN采用了一种与上述不同的自顶向下方式，如图4(b)所示：每条车道线视为一个类别，然后多类别语义分割结果和一个并行的分类分支结合。后续的SAD、EL-GAN、RESA、PriorLane也都是这么做的。这种方式方便了实例区分，但也引入了一定的局限性：需要提前定义车道线的最大数量来确定可能的实例数量。此外，车道线与类别之间的对应关系是通过标注建立的。当车辆变道时，这种预定义的标注可能会导致歧义。

为了解决上述问题，一些方法采用了更为灵活的自底向上（先有语义后有实例）的实例分割方式，即对车道线/背景的二值分割结果进行聚类，如图4(a)所示。最典型的当属LaneNet和LaneAF这俩。不过尽管这些方法提高了实例区分能力，但由于自底向上聚类的高复杂度以及语义分割时对所有像素分类的机制，算法的整体效率仍然不佳。

通过网络分割获得的车道线mask通常包含大量不相关区域。为了将其用于自车运动预测和规划，还需要进一步对mask进行去噪处理，以获得矢量化结果。通常，对于每个车道线的mask，在等间距高度上依次采样最高响应值，然后进行曲线拟合。

3.2.2 基于grids的建模

为了避免语义分割分类所有像素的机制带来的低效率，UFLD设计了一种逐行网格分类的方式完成车道线检测。这个方法也是目前所有2D车道线检测方法里最快的，但是它的实例判别过程也是遵循SCNN那一套。所以为了解决实例级判别问题，受经典实例分割方法CondInst和SOLOv2的启发，ConeLaneNet以预测动态卷积核的方式完成实例级判别，如图4(c)所示。后来UFLDv2又把逐行分类升级成逐行/列分类来解决水平车道线的检测难以用逐行分类机制实现的问题。但仍然遵循SCNN的实例判别过程，这使得为每个车道线实例来选择逐行/列分类过于简单，所以后来CANet又针对这一点进行了改进，让网络能够动态选择行分类或列分类。

由于这类方法的网络输出每一行/列网格的分类概率，并非矢量化格式，因此还需要后处理。具体地说，每个点的坐标计算为位置的期望值(来自同一行/列的网格)即概率加权平均值。这个后处理过程与语义分割获得的车道线mask的后处理相比更容易实现。

3.2.3 基于keypoints的建模

一些方法直接预测车道线的关键点，和基于grids的建模类似，可以被视为基于mask的建模的稀疏版本，但它直接提供了下游所需的矢量化表达。像PINet、FOLOLane、GANet还有RCLane这些都是以自底向上的方式进行，也有遵循自顶向下的方式，最典型的比如CondLSTR。

3.3 基于目标检测的方法

3.3.1 基于line anchor的建模

这类建模方式是目前用的最多，在各个benchmark上刷点也很高的一类。其方法本质就是预测一条参考线上的等距点的水平偏移量来描述车道线，这与一般目标检测方法预测中心点和宽高的偏移量是类似的。

这类方法最早可以追溯到Line-CNN，后来被LaneATT发扬光大。不过由于预设大量的line anchor，以及早期一般的目标检测方法的正负样本匹配策略的局限性，导致那一时期出现的方法都需要NMS后处理。后来随着目标检测逐渐被DETR占据主导地位以及匹配策略的改进，相应产生的车道线检测方法也慢慢向其靠拢。比较典型的例如Laneformer、CLRNet、ADNet，相比于早期的基于line anchor的建模方法，它们从固定密集的line anchor转变为动态稀疏的line anchor。

3.3.2 基于curve的建模

另一批基于目标检测的方法直接用曲线方程建模车道线，网络学习曲线的参数。最初的方法比如PolyLaneNet用三次多项式建模车道线并学习多项式的系数，后来LSTR又把这种建模方式套进了DETR里。由于学习相对较少的参数，这类方法在速度上属于较快的一批。但是在性能上并不具备有竞争力的优势。后来BézierLaneNet用三次贝塞尔曲线建模车道线，网络学习贝塞尔曲线上的控制点，显著改善了这一问题。

3.4 2D车道线转3D车道线(IPM投影过程)

由于实际使用时最终需要3D车道线，所以2D车道线检测的结果还需要进一步利用IPM投影得到3D车道线。因此本文还对IPM的过程进行了回顾，以帮助读者理解其过程，以及IPM带来的缺陷和为什么3D车道线检测任务被提出。这里只展示一下IPM导致的错误结果可视化（图5，以上坡为例），具体的推导步骤读者可参考本文原文。

4、3D车道线检测方法4.1 分类框架

作为2D车道线检测的升级，3D车道线检测更加关注：如何用网络从FV图像中重建缺失的3D信息。如图7所示，现有的3D车道线检测方法可以分为两大类：

(a)基于BEV的方法：利用相机参数，以某种方式将FV特征转换为含有高度信息的BEV特征。这个构建中间代理，即BEV转换的过程通常称为View Transformation。通过这种方式，3D车道线检测任务可以简化为在BEV上的2D车道线检测和高度估计。因此，这类方法的性能不仅取决于BEV中的2D车道线检测结果，还取决于View Transformation的实现方式。

(b)无BEV方法：不依赖BEV特征，可以进一步分为两类。一种是结合深度估计值将2D车道线检测结果投影至3D空间中；另一种是直接建模3D车道线，有了初始化的3D信息，就可以根据相机参数将其投影到FV上，让3D车道线与FV特征之间进行交互，并更新3D车道线。

对于每种方法，实例级判别和车道线建模仍然有讨论。表3中列出了代表性工作的比较。

4.2 基于BEV的方法4.2.1 IPM用于View Transformation

3D-LaneNet既是3D车道线检测任务的提出者，也是3D车道线检测中基于BEV的方法的首个工作。随后Gen-LaneNet、3D-LaneNet+、CLGo等工作进一步进行改进，但是这些早期的3D车道线检测方法对于BEV的转换都是基于IPM实现的，相当于是把IPM从2D车道线检测结果阶段提前到了特征阶段。

4.2.2 可学习的View Transformation

因此，后续的工作为了避免IPM带来的固有误差，尝试以更灵活的方式完成BEV转换，即可学习的View Transformation。这一思想其实早在一些3D目标检测的工作中就有体现了，比如LSS、BEVDet、BEVFormer等。对于车道线检测来说，PersFormer算是首个以可学习的方式实现View Transformation的工作，之后也引出了不少优秀工作，比如BEV-LaneDet、SPG3DLane、LaneCPP等。

4.3 无BEV方法

4.3.1 结合深度估计

和早期的一些深度辅助的单目3D目标检测方法类似，SALAD将3D车道线检测分解为FV上的2D车道线检测和深度估计任务，有了准确的深度值即可将2D车道线精准投影至3D空间。

4.3.2 直接建模3D车道线

这一思想也是类似于一些3D目标检测中的Sparse BEV方法例如DETR3D和PETR（将3D参考点或3D位置embedding投影回FV进行交互）。典型的方法当属CurveFormer、Anchor3DLane、LATR等，都是Persformer之后的同时期工作。尽管在交互细节上可能有所不同（比如Anchor3DLane在投影回FV后用类似LaneATT的方式做pooling，CurveFormer和LATR则是用query和FV做cross attention），但是它们的核心思想都遵循：建模3D车道线并正向投影回FV进行交互对齐。

注：1、关于“3D Line Anchor”的表述：虽然在CurveFormer和LATR原文里没有像Anchor3DLane和PVALane中明确的“3D Anchor”的表述，但是这些方法的本质都是遵循目标检测的范式，并学习3D参考线上等距点的X方向和Z方向的偏移量。因此本文将它们的建模方式都归为“3D Line Anchor”；2、尽管PVALane构建了BEV特征，但仅用于辅助增强3D车道线检测效果，而不是像基于BEV的方法那样成为网络的必要组成部分。

5、方法性能对比

5.1 主流Benchmark下的结果比较

CULane和OpenLane是目前最常用的2D和3D车道线检测数据集。表4和表5分别报告了这两个benchmark下代表性方法的性能。所有结果均来自原文数据。更多数据集下的结果在附录。

5.2 主流Benchmark下的结果比较

考虑到现有方法中实验所用设备的差异性，直接用各方法原论文中报告的速度来进行比较是不公平的。因此，笔者在统一环境中重新测试了代表性方法。表6展示了这些方法的工作效率。根据代表性且开源的方法在CULane或OpenLane数据集上的设置，笔者对其进行了重新评估。为确保公平性，仅测试了模型的推理速度以报告FPS值（即不包含后处理部分，因为有的方法的后处理可能在CPU上执行）。同时，还描述了每种方法的骨干网络、输入大小、模型输出以及可能的后处理（即模型的输出是否反映了每个唯一车道线实例的矢量化表示）。所有测试均使用单张Nvidia GeForce RTX 3090 GPU。

5.3 讨论

先前的章节中从任务范式、车道线建模、全局上下文补充和透视效应消除四个方面概述了现有方法。结合性能和效率的比较，笔者继续讨论它们对车道线检测的重要性。

1、任务范式。基于分割的方法通过两阶段方法实现实例级判别和车道线定位，算法运行时间的大部分被独立的实例判别过程所占据，这使得它们总体上不如一阶段实现的目标检测方法高效。而对于基于目标检测的方法，有必要考虑网络训练过程中的正负样本匹配策略，这将决定后处理是否需要NMS。

2、车道线建模。在基于mask的建模方法中，每个像素都被分类，这可能导致不准确的分割mask，进而阻碍矢量化拟合。因此，实现最佳性能和效率仍然是个挑战。相比之下，基于keypoints的建模、基于line anchor的建模和基于curve的建模方法学习的点或参数更少，且直接产生下游所需的矢量化结果。

基于keypoints的建模方法表现出强大的性能，得益于其在专注于局部方向上的高精度姿态估计技术。然而，这些算法的整体效率受到其分割范式中固有实例判别步骤的限制。

基于line anchor的建模方法利用车道线在单目图像中的垂直和细长特性，在性能和效率之间取得了良好的平衡。然而，这些方法学习等距点的水平偏移量，因此不适用于U形或近乎水平的车道线。这一特殊情况将在后续章节进一步讨论。

基于curve的建模方法表现出良好的效率，但在2D车道线检测基准上的竞争性能方面有所欠缺。有趣的是，这种方法在3D车道线检测中取得了有竞争力的表现。根据Han等人的分析，这种差异应该是由于地面高度的影响，使得在FV中难以拟合不规则的车道线。相比之下，这些车道线在BEV中看起来更平滑，因此更容易拟合。

最后，像UFLD这样的基于grids的建模方法实现了最高的效率；然而，这是以降低计算量为代价的，导致性能次优，通常需要更高级的算子(CondLaneNet里的Transformer encoder和动态卷积)来弥补。

3、全局上下文补充。无论属于哪种类型，大多数方法都达成了一个共识，即补充全局信息可以显著提高车道线检测性能，特别是对于检测那些不明显的车道线。此外，确保这些专门设计的结构在高效处理和有效结果之间取得平衡至关重要。虽然这一方面在现有的3D车道线检测benchmark和方法中很少被关注（主要还是因为3D车道线检测更关注在网络中消除透视效应），但在实际应用中，2D车道线检测中的某些解决方案可以作为参考或者直接无缝集成到三维车道线检测框架中。

4、透视效应消除。最终目标仍然是实现精确的3D车道线检测，以支持下游应用。使用IPM将二维车道线检测结果投影到三维空间中是可行的。然而，由于假设地面平坦，即使在FV中预测准确，BEV中也往往会出现错误结果。虽然基于深度值将2D车道线检测结果投影到三维空间的方法很直接，但这种方法严重依赖于深度估计结果，无法进行端到端的优化。

早期的3D车道线检测方法仍然假设地面是平坦的，利用IPM来构建BEV特征。后来一些方法通过融入可学习的方式对此进行了改进，从而提高了性能。另一批方法则完全避免了BEV特征的构建，直接对3D车道线进行建模，并利用3D到2D的正向投影来规避IPM引入的固有误差。应该指出的是，Transformer在BEV转换（PersFormer）或实现3D车道线与前视图特征之间的交互（LATR）上具有强大的能力，这一点在相关的3D目标检测工作（BEVFormer，PETR）也有所体现。然而，deformable attention等高级算子的硬件部署仍然是一个需要优化的问题。

6、车道线检测的扩展工作

其实正常到第5章后关于对车道线检测方法的总结部分就结束了。但是笔者在接触到一些其他和车道线检测高度相关的领域后，觉得还是有必要提及一下。这些工作在任务流程上可以视作单目图像车道线检测的升级：

1、多任务感知：一个模型同时完成目标检测和车道线检测等任务；

2、视频车道线检测：多帧图像的时序关联；

3、在线高精地图构建：检测环视图下的地图元素，包括车道线、人行横道、车道边界线等各种静态目标；

4、车道线拓扑推理：同样是环视图场景，检测中心线，预测中心线之间的拓扑以及红绿灯和中心线之间的拓扑关系，从而实现场景理解。

并且在近年来也很火热，因此笔者在本章对它们进行了介绍，并给出一份关于车道线检测研究热点的发展路线图（图8）。可以观察到，从检测2D车道线到检测3D车道线，再到检测地图元素，再到检测中心线和拓扑关系预测，模型的输出越来越靠近下游应用。

6.1 多任务感知

早期的一些工作主要集中在BDD100K数据集上的三个任务：目标检测、可行使区域分割和车道线检测。其代表性方法例如YOLOP、YOLOPv2等，它们采用强力Encoder结构提特征然后衔接多个任务头，实现了强大的性能。不过需要指出的是BDD100K数据集里的车道线没有实例级标注，注释都是语义分割mask，所以这些方法的车道线检测头也都是用语义分割的方式来做的。最近的研究慢慢上升到3D多任务感知上，比如PETRv2设计三种query，用三个任务头完成3D目标检测、BEV分割和3D车道线检测，还有RFTR设计一种统一向量场表示从而将3D目标检测和3D车道线检测集成到一个单头模型里。

6.2 视频车道线检测

对于2D的视频车道线检测，早期的一些工作用经典RNN网络（LSTM、GRU）实现多帧特征融合。后来21年ICCV新出了VIL-100数据集，每个视频的帧率下采样至10s，因此更适合视频车道线检测。其相应的baseline方法设计两种attention模块来关联多帧的特征。后续也有RVLD、OMR等创新工作。在3D车道线检测方面，STLane3D算是第一篇利用时序信息的工作，利用attention关联多帧的BEV特征。相比之下，Anchor3DLane-T和CurveFormer++在3D Line Anchor的特征上做attention来补充时序信息。

6.3 在线高精地图构建

即现在业内大火的无图NOA。基本流程是通过环视图构建BEV特征，然后解码器预测地图元素。因此其关键和车道线检测类似，需要考虑如何统一地建模各种地图元素。需要指出的就是当传感器从单目相机增加到多相机时，在BEV平面上会出现很多U型或水平线，那这时候车道线检测里常用的学习等距点偏移量的line anchor modeling方法就不适用了。该任务最先由HDMapNet提出，其采用自底向上的分割方法预测所有地图元素的mask，并结合instance embedding聚类得到地图元素实例。但这种方法仍然需要矢量化后处理以供下游使用，因此后续的工作试图直接完成端到端矢量化建图。在后续的一众方法里，MapTR可谓是最具代表性的工作，其用均匀点来统一建模地图元素，所有地图元素都被表示为具有相同点数和不同排列顺序的集合。得益于其统一的置换等价建模方式和层级化query的设计，MapTR在nuScenes上仅靠相机输入就实现了当时的SOTA，为后续的研究提供了强有力的baseline。后续的大部分工作基本都是针对MapTR进行了改进，比如PivotNet、HIMap、StreamMapNet、MapTracker等，也有一些工作引入地图先验来加强局部建图能力。这一领域内的优秀工作还有很多，由于这一章是对车道线检测扩展工作的简单介绍，所以笔者没有列出所有的方法（仅ECCV 2024的在线建图论文貌似就高达7篇），更多方法的论文和代码可以在笔者构建的GitHub仓库里找到。

6.4 车道线拓扑推理

早期的工作主要集中在线和线之间的拓扑关系上，即检测车道中心线来构建一幅车道图（lane graph）。开创性工作当属STSU，之后也衍生了如CenterLineDet、LaneGAP等创新工作。后来OpenLane-V2数据集诞生，除了包含中心线检测以外，还引入了线和交通标志之间的拓扑关系，代表性方法例如TopoNet和TopoMLP。TopoNet也是当时的拓扑挑战赛的冠军。后来LaneSegNet又把车道线和中心线的关系连接起来，进一步加强了场景理解。

7、未来方向

对于未来方向，讨论的范围包括：领域内仍然有待改进的问题，尚未充分探索的子领域，以及在本领域之外具有重大研究价值的相关任务。

1、高效统一的建模方式。就目前而言，在不影响效率的条件下有效地建模任意形状的车道线仍然是一个挑战。特别是当场景从单目相机前视图扩展到多相机环视图时，会存在大量U形或近乎水平的车道线。在这种情况下，严重依赖先验知识的建模方法，如基于grids的逐行分类建模，或是学习等距点偏移量的基于line anchor的建模方式都不适用。这种情况下往往表现不佳的基于mask的建模方式实际上更有效。像MapTR的均匀点建模方式就不会出现这种歧义性，不过这些建图方案在实车应用的时候还需要对速度进行优化。再有就是CVPR 2024的Lane2Seq通过序列生成来统一2D车道线检测也是一个不错的思路，尽管其效率需要进一步改进（Lane2Seq以自回归的方式输出车道线的点集，当车道线数量增多时推理速度就会显著下降，这可能也是为什么其没有在CurveLanes这种多车道线场景的数据集做实验的原因）。

2、多模态车道线检测。其实近年来纯LiDAR的车道线检测Benchmark和方案也有，最典型的比如CVPR 2022的K-Lane。尽管LiDAR可以直接提供3D信息，但其较短的感知范围和较高的成本使得基于相机的方法更普遍。不过后续的技术路线肯定是多模态融合，这一点已经在很多通用3D感知工作中得到印证了，但对于车道线检测来说目前这类方法还很稀少，代表性的如-3DLaneNet、DV-3DLane，都是LATR团队的工作。

3、标签高效的车道线检测。即弱监督策略和无监督策略，同样目前相关工作较少。

4、对于端到端自动驾驶。在端到端框架中，车道线检测往往不再输出显式的车道线坐标，而是作为提供中间表示的模块。后续的研究或许可以将特定的车道线检测输出（如中心线、车道线宽度、曲率等）作为先验知识整合进端到端框架里来提高性能。

5、针对车道线检测的视觉推理。大语言模型（LLM）和视觉语言模型（VLM）目前也已经被广泛用于自动驾驶领域，相关工作有很多。值得注意的是今年CVPR的一个新数据集MapLM，是专门针对地图和交通场景里的车道线等静态目标开发的benchmark，利用大模型来更好地理解交通场景，未来在这方面的研究应该会更多。

6、路侧车道线检测。V2X也是目前比较火热的一个方向，其相应的路侧3D目标检测任务和相关方法也得到了广泛关注。但是目前还没有针对路侧场景车道线标注的相关数据集和方法。如果能诞生相应benchmark和baseline，路侧车道线检测可以有效地帮助监控车辆非法变道等行为，在安防领域具有巨大的潜力。

8、总结

本文全面回顾了基于深度学习的单目车道线检测的最新进展，涵盖了先进的2D和3D车道线检测方法。通过理论分析和实验评估，确定了车道线检测算法的四个核心设计：(1)所遵循的任务范式；(2)车道线的建模方式；(3)全局上下文补充；(4)相机透视效应的消除。从这些角度，本文对现有方法进行了全面概述。此外，本文还回顾了单目车道线检测的扩展工作，旨在为读者提供对车道线检测发展的更全面理解。最后指出了车道线检测的未来研究方向。

本文的成文离不开笔者的指导老师们的倾心帮助，首先在此对他们表达诚挚的感谢。

然后，笔者在刚入门车道线检测时走过不少弯路，后来通过阅读大量文献、搜索各种知乎经验贴、观看相关工作的讲解视频以及参加的车道线检测课程和高精地图论文带读课程，才对该领域有了全面的认知。这一路的成长离不开领域内众多同行前辈们的优秀工作，也许你们并不认识我，但我此前从诸位的知乎贴或论文讲解视频中属实受益匪浅，在此表示感谢。

以下致谢作者排名不分先后顺序。

RESA（2D车道线检测，AAAI 2021）：Hao Fang
BézierLaneNet（2D车道线检测，CVPR 2022）：Zhengyang Feng\
PersFormer（3D车道线检测，ECCV 2022）：Li Chen，Chonghao Sima
Anchor3DLane（3D车道线检测，CVPR 2023）：Shaofei Huang
BEV-LaneDet（3D车道线检测，CVPR 2023）：Ruihao Wang
MapTR，MapTRv2（在线高精地图构建，ICLR 2023，IJCV 2024）& LaneGAP（道路拓扑，ECCV 2024）：Bencheng Liao
BeMapNet，PivotNet（在线高精地图构建，CVPR 2023，ICCV 2023）：Wenjie Ding
LaneSegNet（道路拓扑，ICLR 2024）：Tianyu Li

#探究数据规模对端到端的泛化影响

端到端自动驾驶范式因为其可扩展性而受到广泛关注。然而，现有方法受限于真实世界数据规模，阻碍了对端到端自动驾驶相关规模化定律的全面探索。针对这一问题，中国科学院自动化所赵冬斌研究员团队与理想汽车“端到端”量产部门夏中谱团队进行了合作探索，团队收集了各类真实驾驶场景和行为数据，对现有基于模仿学习的端到端自动驾驶范式的规模化定律进行了深入研究。具体而言，该团队共收集了23种不同场景，约400万次演示，总计超过3万小时的驾驶视频。在严格的评估条件下，通过共计1,400次不同的驾驶演示（开环1,300次，闭环100次）进行开环评测和闭环仿真评测。通过实验分析发现：(1)轨迹拟合的开环性能与训练数据量呈幂律关系，闭环性能在200万次数据量时出现性能拐点；(2)长尾数据量的少量增加可以显著提高相应场景的性能；(3)适当的数据规模化可以为模型带来新场景组合泛化的能力。团队的研究结果首次通过大规模真实场景数据和实验，展现了数据规模化为端到端模型在不同驾驶场景中的泛化的关键作用，为端到端在开放世界的量产部署提供了支撑。

论文信息

论文题目：Preliminary Investigation into Data Scaling Laws for Imitation Learning-Based End-to-End Autonomous Driving
论文发表单位：中科院自动化所深度强化学习团队，理想汽车
论文地址：https://arxiv.org/pdf/2412.02689
项目仓库：https://github.com/ucaszyp/Driving-Scaling-Law

1 引言

端到端自动驾驶算法将自动驾驶中的感知、预测、规划等任务纳入一个完全可微的框架中。它将原始传感器数据作为输入，输出可能的规划轨迹，这种方法可以数据驱动的方式优化整个系统，因而受到了学界和业界广泛的关注。

然而，当前的自动驾驶社区面临一个巨大的挑战：现实世界数据的匮乏，使得端到端自动驾驶中的数据规模化定律尚未得到充分研究。如表1所示，现有的开源真实数据集规模通常在千级，远小于语言模型或生成模型中动辄百万甚至十亿级的视觉-语言数据。

表1 ONE-Drive和现有的开源数据集的对比

对于端到端自动驾驶的安全落地，在数据规模化定律三个关键问题值得被探索：

端到端自动驾驶领域是否存在数据规模化定律？
在数据规模化的过程中，数据数量如何影响模型性能？
数据规模化能否赋予自动驾驶算法在新场景中的泛化能力？

图1 数据采集车7个摄像头的位置

2 研究工作2.1 数据准备

为了解答这三个问题，团队收集并标注了一个名为ONE-Drive的百万级数据集，其中包含超过400万次驾驶演示（约30,000小时）的现实世界数据，数据源自多个城市的多样道路环境。图1展示了ONE-Drive的采集配置，它包括7个摄像头和一个128线的激光雷达。图2展示了ONE-Drive与现有的开源数据集nuScenes和nuPlan的对比，(a)、(b)两部分展示了它有更丰富的场景和动作。(c)对比了它与其他两个开源数据集的轨迹热力图，展现了ONE-Drive规划轨迹的多样性和挑战性。

图2 ONE-Drive数据集与nuScenes和nuPlan的对比

在此数据集的基础上。团队依据交通条件和智能体的动作将场景分为23种类型。数据集中场景类型的分布如图3所示。

图3 ONE-Drive数据集中23种场景类型及分布

2.2 模型准备

基于PARA-Drive[1]，团队提出了一种易于扩展的端到端自动驾驶网络。它的结构如图4展示。它分别提取多视角图像的特征和点云特征，随后利用前投影的方法将两种模态的信息在鸟瞰图（BEV）空间融合。随后它按照时序提取过去的BEV特征和相对位姿并进行时序融合以增强历史信息。随后，BEV特征通过并行的解码器通过Online Map、4D Occupancy、Static Object Detection、Prediction和Planning等5个任务进行训练。在自车规划中，利用多层感知器将从导航中获取的红绿灯、道路级别的路线（为了应对真实世界规划对贴合导航的需求）等导航信息和自车运动状态编码作为规划的上下文信息，最终输出多模态的规划轨迹和对应的分数。在评测中，分数最高的轨迹将被采取作为最后的规划执行。

图4 模型结构图

2.3 评测准备

团队采取开环和闭环两种评测方式，开环评测旨在评估预测轨迹与专家轨迹的距离。闭环评测采用基于3D-GS场景重建的仿真器。具体来说，对每个测试场景进行3条不同轨迹的数据采集，轨迹间隔3米。利用这些采集数据，团队基于算法StreetGaussians[2]重建了测试场景，它可以10Hz的频率进行图像渲染仿真。闭环仿真中计算和实车部署密切相关的安全、效率、导航、规则、舒适度五个指标，并按照如下方式加权计算驾驶分数：

值得注意的是，由于重建场景的限制，开环评测与闭环评测的场景不完全相同。开环评测有约1300个驾驶演示组成，而闭环评测仅重建约100个场景。后续的工作中团队会将评测对齐，更公平地探索不同评测方式下的规模化定律。

2.4 实验准备

基于ONE-Drive数据集，团队进行均匀下采样得到数据量为200万、70万、5万、1万的子集作为实验数据准备。不同数据量的模型进行训练直到收敛，训练模型及资源如表2所示。

表2 不同数据量模型及训练资源

3 实验与结果

本文在大规模真实场景的闭环规划平台进行闭环规划实验，以评估性能，实验结果如下。

3.1 开闭环性能的差异

如图5所示，团队进行了开环闭环两种评测，并绘制了评测指标和训练数据量的关系图。其中5(a)是开环评测的关系图，横纵坐标均为对数坐标。5(b)和5(c)是闭环评测图，横坐标为对数坐标，纵坐标为线性坐标。如图5(a)的线性拟合，团队发现在开环评测中，模型拟合专家轨迹的性能与训练数据大致呈现幂律关系。如图5(c)所示，在闭环评测中，数据规模化定律不再是幂律关系。驾驶分数首先快速增长，随后增长放缓。在200万数据量时形成一个拐点。图5(b)中展示了闭环中每一项的评分。

图5 数据规模化定律

3.2 数据数量增长对模型性能的影响

团队进一步探讨在数据规模化的过程中，数据量增加如何影响模型的性能以及如何利用这一规律扩增场景数据。为了研究这个问题，团队依照2.1节数据准备中的方法将数据集划分为23种类型，并选择了两种数据量少、模型表现差的长尾场景作为研究对象，开环评测模型的在两种场景中的轨迹拟合能力。在研究中保持数据总量不变，逐步增加这两种场景的数据数量。如表3所示，随着长尾数据量扩增至约4倍时，模型在该场景的性能提升约20%至30%。即通过百或千级别的长尾场景数据扩增，即可在该场景有较大的性能提升。

表3 数据量扩增实验表格

3.3 场景的组合泛化

最后，团队探讨数据规模化与端到端驾驶泛化性的关系。泛化能力被认为是自动驾驶技术于真实世界安全部署的关键。为此，团队将数据集中23种场景中的2种：高速绕行HIGHWAY_NUDGE_OBS和路口待转WAIT_TURN作为测试场景，利用剩下的21种作为训练数据。团队在5万、70万、200万数量的数据上进行了实验。值得注意的是，在选择这两个类别的测试数据时采用了严格的筛选策略，以确保每个场景与其他场景类型不重叠。图6展示了组合泛化的定量结果并展示了与这两种场景相似的场景以便比较。比如对于高速绕行HIGHWAY_NUDGE_OBS，类似的对比场景为高速行驶（左右换道）、城区绕行（障碍物、低速智能体）。通过实验结果观察到：（1）在5万个示例上训练的模型在两个测试场景中与专家轨迹的位移误差比类似场景更大，表明小规模训练数据的模型泛化能力不足。（2）随着训练数据增加到200万（绿色示例数量），两个测试场景的轨迹与其他场景之间的轨迹误差迅速缩小。在高速场景上的表现甚至超过了参与训练的其他场景。（3）通过分别从训练数据中学习高速行驶和低速绕行，模型获得了泛化到高速绕行场景的能力；通过学习转弯和红灯排队，模型发展出了泛化到路口待转场景的能力。

图6组合泛化定量实验

更进一步，图7中展示了模型预测轨迹的可视化。绿色框中的鸟瞰图代表使用5万个示例训练的模型的规划结果，这些示例在训练时不包含高速绕行HIGHWAY_NUDGE_OBS和路口待转WAIT_TURN场景（图例中的"50K + Unseen"）。蓝色框中的鸟瞰图代表使用200万个示例训练的模型的规划结果，这些示例同样在训练时不包含高速绕行HIGHWAY_NUDGE_OBS和路口待转WAIT_TURN场景（图例中的"2M + Unseen"）。橙色框中的鸟瞰图代表使用200万个示例训练的模型的规划结果，这些示例包含HIGHWAY_NUDGE_OBS和WAIT_TURN场景（图例中的"2M + Seen"）。可视化的分析揭示了适当增加训练数据的规模使模型能够实现对新场景的组合泛化。这种增强的泛化能力使模型在这些新场景中的表现可以与专门训练的对应模型相媲美。团队的发现强调了数据规模在提高模型在多种自动驾驶环境中的适应性和鲁棒性方面的关键作用。

图7 组合泛化定性实验

3.4 可视化分析本节中展示了仿真场景的可视化，两个对比场景展现了数据扩增的效果。第三个视频展示了多种天气、道路环境下的仿真效果，体现了基于3D-GS仿真的有效性。闭环仿真测试--对比场景1：无效变道闭环仿真测试--对比场景2：红灯路口停车区域错误多环境的闭环仿真展示

实车部署

在实际部署中，团队评估每个模型的每次干预里程（MPI），这表示在需要人工干预之前平均行驶的距离。更高的MPI表示更好的性能。值得注意的是，在实际应用中采用了一个安全检查模块用于确保安全，它基于并行解码器生成的感知结果选择最合理的轨迹。通过对400万个示例的训练，该模型在道路测试中实现了平均约24.41公里的MPI。

4 结论

在本文中，团队深入探讨了基于模仿学习的端到端自动驾驶框架中的数据规模化定律。进一步的研究揭示了以下有趣的发现：

(1) 随着数据量指数增加，开环的轨迹拟合性能与训练数据量呈幂律关系。

(2) 对于闭环性能，团队发现200万演示数据是闭环性能的拐点，之后随着数据量指数增加，闭环性能提升变慢，这意味着基于模仿学习的端到端框架可能出现“反规模化”效应，即随着数据量指数增加，闭环性能的收益提升会逐步放缓。

(3)长尾数据量的少量增加可以显著提高相应场景的性能；

(4)适当的数据规模化可以为模型带来新场景组合泛化的能力。

在未来，团队将会更聚焦于端到端模型的闭环能力，探索更广泛的场景表征（BEV 和稀疏）、模型架构（级联和并行）和监督范式（监督和自监督）下的模型表现，旨在为自动驾驶系统在不同场景和模型范式中的可扩展性和通用性提供见解。

#ULSR-GS

重现复杂城市环境！超大规模场景高保真表面提取框架基于 GS 的大规模表面重建挑战

3D 高斯点散射（3D Gaussian Splatting, 3DGS）作为一种开创性的方法，在 3D 表面重建和渲染领域展现了卓越的能力，可实现高质量的场景表示并支持提取细节丰富的网格。然而，现有基于 GS 的研究主要集中于小规模表面重建或大规模场景渲染，但并未针对大规模城市表面重建进行优化。在基于 GS 的大规模城市表面重建应用中存在稀缺性的原因主要包括以下几个方面：

计算复杂性：处理庞大的城市数据集需要耗费大量计算资源和显存，对于单 GPU 的任务尤为困难，这对 GS 方法的可扩展性构成了重大挑战。
分区策略的局限性：现有大规模基于 GS 的方法通常针对场景渲染进行了优化，而它们的分区策略并未针对网格重建任务进行调整。
重建质量问题：某些区域的密化处理不足，尤其是在处理数千幅航拍倾斜影像时，导致重建精度受限。

ULSR-GS[1]是一种结合点到图像划分方法与多视图约束密化的方法,用于应对基于 GS 的大规模表面重建挑战。具体而言，不同于基于图像位置的分区方法，基于匹配的多视图图像选择最优的视图集合，并考虑每个点的摄像机角度、距离和配对质量等因素。这种有针对性的图像选择不仅能够通过利用最有信息量的图像确保高质量的表面重建，还能够减少冗余数据的处理。此外，我们引入了一种多视图训练策略，该策略在每次训练迭代时基于与当前处理图像最佳匹配的视图施加额外约束。这种训练策略通过利用多个角度的最有信息量图像，实现了更稳健且一致的重建。我们进一步在密化过程中融入多视图一致性约束，从而确保密化步骤在跨视图几何关系一致的前提下进行，生成更精确的表面细节。

项目主页：https://ulsrgs.github.io/

主要贡献：

提出了一种专为克服现有基于 GS 的方法在大规模表面重建中的局限性而设计的新方法 ULSR-GS。
提出了一种创新的点到图像场景划分策略，用于大规模场景网格提取中的 GS 方法。该策略基于最佳匹配视图选择每个子区域的图像，提高了重建精度。
提出了用于密化过程的多视图一致性约束，在大规模城市环境中生成了详细且精确的重建结果。

具体方法多视图优化点划分

与之前研究基于无人机照片位置进行区域划分的方式不同，我们的方法基于场景的初始点云，并为每个子区域的点云选择最佳训练图像。此方法的优势在于能够在早期阶段确定每个子区域网格的提取边界，而无需在整个场景合并后再进行提取。

密度控制的边界精化

为了有效地将初始点划分为子区域，关键在于隔离场景的主要结构组件，并消除可能扭曲边界定义的稀疏和噪声的结构化运动（SfM）点。

清理点云：首先，移除所有 SfM 重投影误差【29】大于阈值（实验中 $\epsilon_{\text{error}} > 1.5\））的 3D 点。这一步通过丢弃不可靠的点清理了点云，避免了划分过程中被错误点干扰。
划分体素网格：将 3D 空间划分为体素网格，其大小为，并根据每个点的坐标将 SfM 点分配到对应体素：

对于每个体素，计算包含的点数：

其中为 Kronecker δ 函数【15】。
密度阈值过滤：计算最大体素占用数的阈值比例（如），并将的体素保留为高密度体素。
确定边界：通过计算点的最小和最大坐标获取场景的精确边界。

初始视图选择

如图 2（I）所示，输入的 SfM 点云经过密度过滤后被划分为网格。每个子区域中的点都作为检测到它的图像的特征点，初步选择所有匹配的图像作为粗粒度的视图选择（见图 2(e)）。

源视图选择

为了进一步优化视图选择，在公式 (1) 基础上，基于相机对距离应用区域约束，仅选择距离小于指定最大阈值的图像对。最终的匹配得分为：

然后，为每个参考图像，选择具有最高匹配分数的前三个源图像组成最佳视图集合。

每点最优视图选择

目标是确保子区域内的每个 SfM 点都与最具信息量和几何鲁棒性的图像对相关联。具体步骤如下：

将每个点投影到参考图像和对应的源图像的 2D 图像平面上。
计算每个投影点与对应图像中心的平均欧几里得距离。
在所有观察的四图像组中，选择最小的组。

通过这种方式，主要由距离图像中心最近的图像重建，从而提升三角化的可靠性。

去除冗余图像

在确定所有子区域内最佳图像组后，排除不在任何最佳组中的图像。实验中，这些被排除的图像通常位于子区域的最外侧，属于只能观察到少量点的冗余图像。

自适应多视图密化

先前的研究表明，较精细的高斯原语对于捕捉高频几何细节至关重要。在 ULSR-GS 中，我们通过一种类似于多视图立体（MVS）的方法进行额外的密化，以解决基于 TSDF 融合的计算导致的网格过于平滑的问题。此方法将投影到 3D 空间，并结合 GT 图像的 RGB 信息来丰富高斯原语。

多视图深度聚合

在我们的方法中，我们对来自多个源视图的深度信息进行加权平均聚合。加权方式为每个深度估计分配一个基于几何一致性的置信分数，确保几何一致性更高的源视图在最终深度估计中占据更大权重。

具体来说，我们从公式 (8) 中选择了三个源视图，每个源视图的渲染深度表示为（）），参考视图的深度图为D_{\text{ref}}。对于参考视图中的每个像素p_{\text{ref}}，最终融合的深度估计D_{\text{final}}(p_{\text{ref}})$ 通过源视图的加权融合获得：

其中，是在第个源视图中对应的投影像素处的深度值，权重基于几何一致性分数，衡量第个源视图中深度估计的可靠性：

其中，深度误差定义为参考视图与源视图间的深度差：

自适应深度密化

直接投影所有几何一致性检查后的深度信息会向训练场景引入过多的冗余信息，这会对训练速度和场景表示的精确性产生负面影响。为了解决此问题，我们引入了一种自适应密化窗口掩码，限制密化区域范围。这种方法能够剔除深度图边缘的错误值，并自适应地处理由视点变化引起的非均匀深度变化。

窗口大小自适应调整：基于深度梯度表示每个像素处的深度变化率，窗口大小与平均梯度成反比，表示深度变化较大的区域使用较小的窗口以捕捉更细致的细节，而深度变化较小的区域使用较大的窗口。首先计算深度图大小为的平均梯度：

基于平均梯度，窗口的高度和宽度根据场景深度变化动态调整：

其中，和是控制窗口大小变化的比例常数，用于避免梯度过小时的除零问题。
深度投影：在通过公式 (9) 进行几何一致性检查和深度融合后，将窗口内的深度投影到 3D 空间：

其中是相机内参矩阵的逆矩阵，是从窗口化深度图投影的 3D 点。
一致性调整：按照 MVG-Splatting【18】的设置，在每次密化步骤后，对新增的高斯原语执行额外的重缩放和旋转对齐操作，以确保场景内的一致性。

损失函数

在多视图训练过程中，为了优化几何一致性和重建质量，我们定义了以下损失函数来指导模型训练。

几何一致性损失

几何一致性通过参考视图的重投影深度和源视图的深度的重投影误差进行优化。公式如下：

该损失项可以确保在重建过程中多视图深度信息之间的一致性。

多视图法向量一致性损失

对于每个投影点，我们计算参考视图法向量和源视图法向量之间的角误差。通过优化法向量一致性，确保几何形状在不同视角下保持一致。公式如下：

最终损失函数

最终的损失函数综合考虑了深度一致性、法向量一致性，以及其他几何和纹理相关的约束：

其中：

和是控制各项误差项贡献权重的平衡参数；
包括来自 2D Gaussian Splatting 的两部分正则化：深度失真和法向量一致性；
表示 RGB 重建损失，包括 L1 损失和 D-SSIM 度量。

训练目标

通过组合这些损失项，我们的优化目标是实现多视图深度信息的几何一致性，同时确保法向量方向的一致性，从而提升模型在复杂场景中的重建精度和细节表现。

实验效果

总结一下

ULSR-GS是一种专注于超大规模场景高保真表面提取的框架。结合了分区策略与多视图选择策略。此外，ULSR-GS采用了一种基于多视图几何一致性的密化策略，以提升表面细节的精度。实验结果表明，ULSR-GS在大规模基准数据集上的表现优于其他基于GS的最新技术。

局限性：

高度反光区域（如水面和玻璃建筑）
尽管准确地重新计算了渲染深度，但某些遮挡区域中容易出现计算误差

#小米首款SUV能否延续SU7神话？

小米首款SUV官宣，一夜热度横扫半个车圈。

网友迅速围观，纷纷点赞外观：

但也有网友提出了不同意见，觉得类似设计还是SU7更耐看：

也有大量网友，吐槽了其中一处细节变化，雷总评论区前排直接“沦陷”。

不过关于竞品，大家的意见却出奇一致：

Model Y，大概率还是焕新版Model Y。

车圈热度一石，小米独占八斗，让同期申报的三电机尊界S800和带无人机的腾势N9，很受伤。

小米YU7，一款怎样的车？

首先来看外观，小米YU7S是一款中大型SUV，和小米SU7轴距一样都是3米轴距，5米车长。

不过YU7比SU7略宽一指，比SU7高0.16米。

车尾溜背看起来没有Model Y和智界R7那么夸张，更偏向类似Macan和问界M5的感觉。

整体设计看上去，仍然是心有灵犀家族式设计语言，看起来像是SU7的拉高拉宽版。

不过也有一些细节不同，比如轮毂样式不是“梅花轮毂”，目前提供两种样式选装：

门把手采用了隐藏式。

门把手也是目前争议最多的点，网友的疑惑和请愿“攻占”了雷总的评论区。

说完了外观，然后是内饰，emmm目前还没有内饰信息，会不会和小米SU7大差不差，还是会搞一些新的东西：

比如门把手样式都随大流了，那车内的实体按键是不是也会相应减少，以及针对家庭用户，结合米家特点推出一些新的设计，欢迎大家在评论区讨论。

其他方面，目前曝光的申报车型也只有上面这一款，搭载了激光雷达。

电机是双电机，全部来自汇川动力，前电机是220kW，功率与小米SU7 Max前电机相同，后电机是288kW，比小米SU7 Max后电机略微强劲。

电池是宁德时代的三元锂电池，虽然没有说度数，但参考小米SU7三个车型，只有Max版配备的是三元锂电池。

所以目前申报的这款可能就是小米YU7 Max，度数可能也是100度。

不过在当晚官宣后，也有消息称，小米YU7很可能入门就是激光雷达+大电池版，这无疑给小米YU7的起售价，制造了更大的悬念。

有网友认为，不可能起售价超30万，应该会在25-35之间：

这里不妨做个猜测，一起讨论一下：

首先，“19.99”是不用想了。

然后如果有砍掉激光雷达的标准版，参考小米SU7 21.59万元的起售价，一般自家的同级SUV会比轿车贵2-3万。

所以小米YU7 标准版的起售价大概在23-24.5万元，比如今25万元起售的Model Y略微便宜。

Model Y，是目前国产纯电SUV上市绕不过去的竞品，今年迎来一众对手，极氪7X、乐道L60、阿维塔07和智界R7…….被网友戏称为“六大门派围攻光明顶”。

因此，也有网友称YU7会是最后站上光明顶，将Model Y拉下神坛的“张无忌”。

不过，近期不断有消息称，明年Model Y将推出焕新版，甚至三排加长版，届时Model Y的产品力显然会有所升级，这也给“6大门派和张无忌们”造成了很大压力。

最后，小米YU7已经官宣，会在2025年6月或7月上市。这也是往年小米小折叠和万元机大折叠的上市时间，象征着小米手机冲高的又一次尝试。

这也意味着，到时小米的新工厂应该已经落成，有足够产能了。YU7可能也暗含着“早下早定，YU7(逾期)不候”。

还有哪些值得关注的新车？

除了小米YU7，首先最值得关注的还有“华为版劳斯莱斯”尊界S800。

有三大亮点：

确认有混动车型。
搭载三电机。
电池材料不是三元也不是磷酸铁锂，而是镍钴锰酸锂。

尺寸方面，轴距是3370mm，车长确认是5.48米，值得一提的是，其接近角和离去角比同期4.8米车长还小。

然后是比亚迪也上市了许多车型，比如腾势N9无人机版：

腾势N9是一款全尺寸SUV，车长超5.25米，直接竞品是理想L9和问界M9。

然后是方程豹推出了一款方程豹“钛3”，目前申报的两款车型都是纯电动力，车长超4.6米，比坦克300要短的多。

还有一款车型标配无人机舱：

最后是主品牌，一口气申报了3款新车：

新款秦PLUS，车头车尾采用了全新样式，长/宽/高分别为 4780/1837/1515（mm），混动版车长比现款略长了15mm，高度增高了20mm，混动版电机功率120kW相比现款的132kW减少了一些。

纯电版车长比现款加长了30mm。

然后是新款海豚，车长/宽/高分别为 4280/1770/1570（mm）。

最后是海豹05，算是现款驱逐舰05的改款，外观变化还是比较大的。

值得一提的是，上述三款新车全部支持选装内后视镜底座，以及外后视镜带摄像头。

作为比亚迪的基础产品，这多少暗示了今后全系车型的重要变化。

上述申报的新车，有你心动想要入手的吗？

#UniScene

视频点云Occ三大生成任务全部暴力提升~

本文是对 UniScene: Unified Occupancy-centric Driving Scene Generation的解读，UniScene 在Video、LiDAR 和Occupancy生成方面超过了所有之前的SOTA方法。此外，UniScene生成的数据可显着增强下游任务，包括Occupancy预测、3D检测和BEV分割。

论文链接：https://arxiv.org/abs/2412.05435
开源地址：https://github.com/Arlo0o/UniScene-Unified-Occupancy-centric-Driving-Scene-Generation

，时长00:50

Motivation

生成高保真、可控、带注释的训练数据对于自动驾驶至关重要。现有的方法通常直接从粗略的场景布局生成单一数据形式，这不仅无法输出各种下游任务所需的丰富数据形式，而且还难以直接建模场景布局到生成数据的复杂分布。

为了解决上述问题，我们提出了UniScene，这是第一个用于生成驾驶场景中三种关键数据形式(Occupancy、Video和LiDAR)的统一框架。 UniScene 采用渐进式生成过程，将场景生成的复杂任务分解为两个步骤：(a) 首先从自定义场景布局生成Semantic Occupancy作为富含语义和几何信息的场景表征，然后 (b) 使用基于高斯的联合渲染和先验引导的稀疏建模两种新颖的条件化转换策略，分别生成Video和LiDAR数据。这种以semantic occupancy为中心的方法减少了生成学习的负担，同时为后续生成阶段提供详细的中间表征。大量实验表明，UniScene 在Video、LiDAR 和Occupancy生成方面优于以前的SOTA方法，并显著增强下游驾驶任务。

Method

我们提出的UniScene是一个以Occupancy为中心的统一框架，用于生成Video、LiDAR 和Occupancy的数据。如下图所示，UniScene采用分解学习的范式，并按层次构建：它首先从BEV Layout生成三维semantic occupancy，然后利用这种表征促进Video和LiDAR数据的生成。具体来说，与之前的无条件semantic occupancy生成方法不同，我们使用定制的BEV Layout序列作为可控输入，生成具有时空一致性的语义Occupancy序列。与之前单步的生成方法不同的是，我们的方法利用生成的occupancy作为中间表征来指导后续的生成。

为了弥补表征差距，确保高保真地生成Video和LiDAR数据，我们引入了两种新颖的表征转换策略：

(1). 几何-语义联合渲染策略，利用高斯泼溅(Gaussian Splatting)，促进具有详细多视角语义和深度图的条件视频生成；
(2). 用于激光雷达(LiDAR)数据生成的先验指导稀疏建模方案，该方案利用occupancy的先验知识高效生成激光雷达点云。

UniScene在创新性方面主要做出了以下贡献：

我们提出了UniScene，它是首个用于在驾驶场景中生成多种数据的统一框架。它能联合生成三种格式的高质量数据：Video、LiDAR 和Occupancy。
我们提出了一种条件分解生成范式，可逐步对复杂的驾驶场景进行建模，从而有效降低生成难度。首先生成细粒度的Semantic Occupancy作为中间表示，然后再生成Video和LiDAR数据。
为了弥合occupancy和其他数据格式之间的领域差距，我们引入了两种新颖的表示转换策略：一种基于Gaussian Splatting渲染，另一种利用稀疏建模方案。
在各种生成任务中进行的大量实验表明，UniScene 在Video、LiDAR 和Occupancy生成方面的表现优于最先进的方法。此外，UniScene生成的数据还显著增强了下游任务，包括occupancy预测、3D检测和BEV分割。

我们提出的方法整体框架如上图所示，其联合生成过程被组织成一个以occupancy为中心的层次结构： I. 可控occupancy生成。在输入occupancy DiT之前，先将 BEV Layout与噪声进行串联，然后用Occupancy VAE 解码器进行解码。II. 基于occupancy的Video和LiDAR生成。occupancy会被首先转换成三维高斯，并渲染成语义图和深度图，然后用基于ControlNet的编码器进行处理，由Video VAE 解码器获得输出。在生成LiDAR时，Occupancy通过Sparse UNet进行处理，并利用其几何先验指导进行采样，然后输入到LiDAR Head进行生成。

可控语义Occupancy(semantic occupancy)生成

在UniScene中，生成可控且时序一致的semantic occupancy是重要步骤，这一过程为后续的Video和LiDAR数据生成奠定了基础，确保了这些数据的真实性和一致性。为此，我们引入了Occupancy Diffusion Transformer (DiT)，它能够接收BEV Layout序列作为输入，使用户可以轻松编辑并生成相应的occupancy序列。

Temporal-aware Occupancy VAE
为了提高效率，我们的occupancy VAE旨在将Occupancy数据压缩到潜在空间中。与依赖离散标记化的方法不同，我们采用连续潜在空间来编码Occupancy序列，这种方法能够在高压缩率下更好地保存空间细节。实验评估显示，该方法在保持高质量重建方面表现优异。

在编码阶段，我们将3D Occupancy数据转换为一个BEV表示，其中表示可学习类嵌入的维度。然后，通过2D卷积层和2D轴向注意力层获得降采样的连续潜在特征。我们在解码阶段考虑时序信息，以实现更灵活的配置，使用3D卷积层和3D轴向注意力层重构出时序潜变量特征，进而恢复Occupancy序列。

训练过程中，我们采用交叉熵损失、Lovasz-softmax损失以及KL散度损失。总损失函数定义为：

其中和分别是两个损失项的权重。

Latent Occupancy DiT
Latent Occupancy DiT专注于从噪声Volume中生成Latent Occupancy序列。这一过程首先将BEV Layout与噪声Volume连接起来，并进一步patch化处理后输入到Occupancy DiT中。这种显式的对齐策略帮助模型更有效地学习空间关系，从而实现了对生成序列的精确控制。

通过一系列堆叠的空间和时间变换器块，Occupancy DiT汇聚了时空信息，使得长时间一致性的Occupancy序列生成成为可能。其损失函数具体如下：

这里表示模型输出，是第帧的输入噪声潜在，而则是目标噪声分布。通过引入时序感知的Occupancy VAE和Occupancy Diffusion Transformer，UniScene不仅提升了Occupancy数据的高效压缩和细节保留能力，还实现了长时间一致性的Occupancy序列生成。

以Occupancy为条件引导的多视角Video生成

UniScene的视频生成模块基于预训练的Stable Video Diffusion (SVD) 模型，该模型由3D Video VAE和Video Diffusion UNet组成。Video Diffusion UNet利用基于Occupancy的渲染图和Text Prompt作为条件，生成多视角驾驶视频。

多视角语义与深度图渲染
为了实现高质量且一致性的视频生成，我们引入了基于高斯的联合渲染方法，将输入的Semantic Occupancy网格转换成多视角语义和深度图。这种方法不仅弥合了Occupancy网格与多视角视频之间的表征差距，还提供了细致的语义和几何指导。具体来说，给定形状为的Semantic Occupancy数据，首先将其转化为一系列3D高斯面片，每个面片包含位置、语义标签、不透明度状态以及协方差等属性。随后，通过tile-based光栅化过程，渲染出深度图和语义图：

其中表示深度值，则由投影后的2D高斯分布和3D不透明度共同决定。渲染结果如下图所示，其中BEV Layout中的道路线被投射到Semantic Occupancy上，集成相应的语义信息。

这些渲染图通过带有残差连接和零卷积的编码分支输入到模型中，类似于ControlNet的设计，旨在利用预训练的视频扩散UNet的能力，同时保持其固有的生成能力。

几何感知噪声先验为了进一步提升视频生成的质量，我们在采样过程中引入了几何感知噪声先验策略。该策略不仅注入密集的外观先验，而且通过渲染的深度图显式地引入了几何信息，以此建模区域间的相关性。

具体的训练噪声公式如下：

其中是相机内部参数，是变换矩阵，是第帧视频的渲染深度图。通过单应变换，从参考图像中翘曲外观先验到其他图像平面，实现了显式的几何感知重投影。

Video训练损失函数
我们定义的视频训练损失函数旨在优化模型输出与真实值之间的差异，损失函数公式如下：

其中代表视频生成模型的输出，和分别是第帧视频的渲染深度图和语义图，是输入的文本提示，分别对应的是第帧的真实值和带噪声的潜在特征，是根据SVD选取的条件参考帧，是一个用于选择条件帧的一热编码掩码。我们随机选择来减少模型对特定条件帧的依赖。

基于Occupancy的稀疏建模LiDAR生成

在LiDAR（激光雷达）生成方面，UniScene采用了基于Occupancy的稀疏建模。该方法首先使用Sparse UNet对输入的语义Occupancy进行编码，将其转换为稀疏体素特征。然后，通过Occupancy先验指导的稀疏采样来生成LiDAR点云数据。这种方法不仅提高了计算效率，还准确地模拟了真实的LiDAR成像过程。

稀疏体素特征提取
给定具有固有稀疏性和详细几何结构的Semantic Occupancy网格，我们提出了一种先验引导的稀疏建模方法以提高计算效率。通过避免对置空体素的不必要计算，显著减少了计算资源的消耗。输入的Semantic Occupancy网格首先经过Sparse UNet处理，以聚合上下文特征。

Occupancy引导的稀疏采样
接着，我们在LiDAR射线上执行均匀采样，生成一系列点。为了实现Occupancy引导的稀疏采样，我们将Occupancy体素内的点的概率设为1，其他所有点的概率设为0，从而定义了一个概率分布函数（PDF）。随后，根据这个PDF重新采样个点：

其中是射线的起点，是归一化的射线方向。这种基于Occupancy的先验引导采样方式确保了LiDAR点云的生成更加符合实际情况。

射线体积渲染
受之前工作的启发，我们采用了基于射线的体积渲染技术。每个重采样的点的特征通过多层感知器（MLP）处理，以预测符号距离函数（SDF）并计算相应的权重。这些预测值和权重用于通过体积渲染估计射线的深度：

其中，是渲染得到的深度值。

LiDAR Head

为了更准确地模拟实际的LiDAR成像过程，我们引入了反射强度Head和射线Drop Head。反射强度Head负责预测沿每条射线LiDAR激光束被物体反射的强度，这涉及到根据权重对射线上的点特征进行加权求和，再通过MLP进行预估。射线Drop Head则用于估计由于未能检测到反射光而导致射线未被LiDAR捕捉的概率，其结构与反射强度Head相同。如下图所示，射线Drop Head有效地消除了预测中的噪声点。

LiDAR训练损失函数
LiDAR生成的训练损失由深度损失、强度损失和射线丢弃损失组成：

其中, 是平衡系数，用于调节不同损失项的重要性。

Experiment

实验表明，我们的方法在Video、LiDAR 和Occupancy生成方面优于之前的SOTA方法，并显著增强了下游任务，包括Occupancy预测、3D检测和BEV分割。

定性实验结果：

，时长00:58

定量实验结果：

在 NuScenes-Occupancy 验证集上对Occupancy重建进行定量评估。压缩比是按照 OccWorld 中的方法计算。

在 NuScenes-Occupancy 验证集上对Occupancy生成（“Ours-Gen.”）和预测（“Ours-Fore.”）进行的定量评估。Ours-Gen. “和 ”Ours-Fore. "分别表示我们的生成模型和预测模型。CFG "是指无分类引导。

在 NuScenes 验证集上对视频生成进行定量评估。我们利用空间-时间注意力机制实现 Vista* 的多视角变体。

在 NuScenes 验证集上对激光雷达生成进行量化评估。我们将Occupancy生成时间包括在内，以便进行公平比较。

在 NuScenes-Occupancy 验证集上对语义Occupancy预测模型（基线为 CONet）的支持情况进行定量评估。C“、”L “和 ”L^D "表示摄像头、激光雷达和基于激光雷达的深度投影。

#Robotaxi全球三强之一突然倒下

烧光700亿落地百余辆...

太突然了！

通用汽车刚刚宣布：“断供”Cruise。

在L4强势复苏，长跑多年的L4玩家纷纷排队上市的一年，

在Robotaxi迅速降本，落地规模和速度一再刷新纪录的一年——

Cruise，这家自动驾驶赛道曾经的明星独角兽，和Waymo、百度Apollo并列三强的Robotaxi玩家，烧光700亿后，走向自己的终局。

通用突然「断供」Cruise

北美时间周二下午，也就是刚刚，通用汽车官方发表了一份声明：

核心内容只有一个：

Cruise今后的Robotaxi业务，一分钱也不投了。

通用“铁娘子”玛丽博拉解释，不是抛弃Cruise，而是彻底转变了通用汽车的自动驾驶发展战略：

从之前笃信L4和Robotaxi，转向在乘用车上量产高阶智驾，通过数据迭代逐渐实现完全自动驾驶——特斯拉的道路。

退出Robotaxi的原因，官方给出两条：

外部激烈竞争
成本太高且不是核心业务

Cruise的团队、资产，直接和通用汽车的技术团队合并，转向量产车智能驾驶研发。

之前收购Cruise时，通用不是还引入了很多外部股东吗？在如今新的安排下，通用将回购这些外部投资者手里的股份，把自己的持股比例提到97%。

今后Cruise团队、管理层的去留，做什么业务、怎么做，完全由通用汽车决定。

这种情况下，以后自动驾驶、智能汽车赛道上，还会不会再有一个名叫“Cruise”的玩家，也不太确定了。

Cruise谢幕终局的时刻，距离它的Robotaxi发生严重事故，迅速从顶峰滑落，仅仅一年之隔。

Cruise这一路

2013年，凯尔·沃格特（Kyle Vogt）创办了Cruise，总部就在旧金山，瞄准无人车和自动驾驶的伟大前景，成为最受瞩目的创新公司之一。

凯尔完全是技术工程师出身。他出生在美国，从青少年时期开始，就对自动驾驶有了兴趣。

2004年开始，他考入麻省理工，开始研习计算机和电气工程，并且过程中参与了后来改变自动驾驶进程的DARPA比赛。

Cruise成立的前三年，主要依托日产Leaf车型平台推出了一系列原型车、测试车，开展L4自动驾驶技术的研发。

3年后，Cruise接受通用汽车的收购提议，成为了通用旗下全资子公司（后来引入外部投资，但通用扔持股90%）。

当时通用也承诺，会给予Cruise充分的独立性，可以自主推进技术和商业化，同时还能借助通用的车厂经验和资源，加速前进。

通用是兑现了承诺的。Cruise作为通用的旗下自动驾驶公司，从2018年起先后引入了孙正义的软银22.5亿美元投资，又单独收购了无人物流公司Zippy.ai，以及顺势收下了Zippy.ai的一家激光雷达芯片公司Strobe。

彼时的Cruise，弹药充足，令友商羡慕：有车企“大树”、大帝孙正义的资金支持，还有便利的量产车型平台渠道，自动驾驶落地有Robotaxi，还有无人物流车，自己还掌握了自动驾驶核心零部件技术和供应链。

2021年，Cruise估值达到巅峰，300亿美元（折合人民币约2139亿元），随后不久，Cruise豪言计划把Robotaxi车队数量扩充到5000。

但波折起伏也一直伴随着Cuise，特别是在2018年之后，Cruise的发展，开始展现更大的“资本驱动”一面。

2018年Dan Ammann（丹·阿曼），前通用汽车的CFO、总裁，正式成为了Cruise的CEO。

6月，在一波与孙正义的眉来眼去之后，通用对Cruise上演了一出“并而复拆”的戏码，重新引入其他外部投资方。

孙大帝沿袭一贯风格，火速带来了日本车厂本田，把Cruise估值炒到190亿美元，并订下了商业化和IPO时间表。

毫无疑问，资本方面的高潮迭起，自然与这位财务和车厂背景出身的CEO——丹·阿曼密切相关。

但与资本进展形成对应的，却是技术落地的一再推迟。

Cruise最早就放话，要最早在旧金山市区落地RoboTaxi，并且2019年就能让旧金山市民随叫随打。然而该计划却一而再被推迟。

过程中，Cruise也有过高光时刻。

比如推出了没有方向盘、完全重新设计的无人驾驶原型车Cruise Origin，但还只停留在“原型”阶段。

或许是要为这种现状和结果负责，也或许是由于媒体爆料的“与通用汽车现任CEO玛丽·博拉不和”……

阿曼在2021年12月，突然离职了，通用又将创始人凯尔·沃格特请回来重新执掌Cruise。

但此时的Cruise在Robotaxi落地竞速中，已经错失了最宝贵的窗口期。

去年8月硅谷全面解禁无人车，允许无人车不分时段和路段运营测试，被认为是自动驾驶的关键里程碑。监管放开的目的，当然希望加快自动驾驶商业化落地。无疑是有利自动驾驶玩家们的，前提是无人车够安全可靠。

但谁也没想到，放开才一周，Cruise无人车就不断造成事故：

大晚上的10辆无人车突然集体熄火，造成交通堵塞。堵了近半个小时，Cruise员工才赶到现场手动挪车。

没过几天又在拉客时，撞上了正出任务的消防车，造成乘客受伤。

正是因为此次事件，加州机动车管理局（DMV）盯上了Cruise，开始调查。

立即要求Cruise将运营规模缩小一半，白天运营车辆不超过50辆，晚上不得超过150辆。

偏偏是在被调查的敏感期间，无人车造成了更严重的事故：

挡道救护车，致使车上伤者错过最佳救护时间，不幸离世。

消息传出，民众沸腾，人群聚集到Cruise总部前示威。

官方和民间两头都得罪，结局也就不意外了。最终在10月份，无人车拖拽压走一名女子后，DMV吊销了Cruise无人车运营资格。

Cruise随后宣布无方向盘和脚踏板的自动驾驶车型Origin停产，将重新评估自动驾驶。

而评估的初步结果就是，Cruise裁撤了一部分负责运营和维护无人车的临时工，同时宣布正式工的裁员也会到来。

CEO、创始人凯尔·沃格特，也在年底辞职，彻底退出了Cruise。

可能从此时，通用就已经在重新考虑Cruise的未来了。

而真正促使通用做出裁撤Robotaxi业务、合并Cruise团队的最后导火索，可能是Cruise上个月向监管承认曾经在接受调查期间，提供了虚假的情况报告。

此时此刻，Robotaxi全球三强的另外两家，正呈现出欣欣向荣的格局：

Waymo眼下每周能在北美提供超过17万次Robotaxi服务，并且去安全员。业内推断Waymo真实的车队运营规模，可能已经超过2000辆。和极氪合作的第六代前装量产Robotaxi车型明年年初也将上路。

至于估值，在谷歌最新一轮注资后，已经超过了450亿美元。

百度Apollo则在中国落地十数个城市，仅武汉一地就由此超过700辆萝卜快跑运力，日均完成9000单，成本20万的RT6车型投放在即。

而Cruise在倒下的这一刻：

之前计划的5000辆车队，实际落地的最高峰也只有百余辆。前前后后通用对Cruise的投资，却已经超过了100亿美元。

有什么影响？

Cruise被迫退出Robotaxi，真的会对Robotaxi、L4赛道产生负面影响吗？

其实不然。

因为Robotaxi整车平台、自动驾驶套件成本已经大幅下降，并且还有进一步降本空间。

目前单车运营成本和网约车专车已经打平，商业模型的成立近在咫尺。

Waymo、Apollo的落地进展，以及小马、文远等等L4玩家成功上市，也说明无人驾驶正在迎来新又一波高潮。

Cruise的退出，反倒更好的证明，L4从技术体系、落地场景、商业模式、运营管理等等，都是和L2+完全泾渭分明的另一桩生意。

造车卖车的车企入局，也许真的不是最优选择。

所以，通用断供Cruise，不是L4的挫折，而是在历史、时局、技术、团队等等复杂因素作用下，通用汽车不得不接受的遗憾失败。

#自动驾驶3DGS最新综述

闭环仿真日新月异的今天，如何紧跟节奏？

NeRF技术兴起于2020年，自此掀起了三维重建领域新一轮的革新风暴。三年时间飞逝，新的算法和改进层出不穷，其视觉质量逐步提高突破。并且在该技术的支持下，许多领域都取得了突破性的成果。近几年的顶会上也涌现出大量关于NeRF的文章，NeRF已经逐渐成为世界计算机视觉领域里面的一个非常主流的领域。为何NeRF会在短时间内受到如此广泛的重视？这是因为相比于传统几何的三维重建方法，NeRF更加简单且逼真。若要对NeRF"更简单、更逼真"的优势进行深刻了解，就需要进一步了解传统几何三维重建与NeRF三维重建的pipeline。

自动驾驶需要三维重建技术来帮助车辆更好地了解周围环境（如驾驶场景理解、同步定位和建图以及城市场景重构）。重建技术可重建车辆周围的环境，为自动驾驶系统提供更准确的环境信息。这有助于自动驾驶系统更好地规划驾驶路径，避免碰撞，提高驾驶安全性。图1展示了自动驾驶与3D重建技术之间的关系。

图1 自动驾驶与3D重建技术的关系示意图

在三维场景重建方法中，主动式重建技术由于其设备成本高、检测速度慢和算法泛化差等原因，因而在室外场景的应用中表现不佳。以多视角立体视觉法为研究重点的被动式重建技术采集速度快、设备效益高、整体系统的灵活性和鲁棒性强，而其中神经辐射场（Neural Radiance Field，NeRF）作为计算机视觉领域隐式辐射场的代表，以其高度逼真的渲染质量、自由灵活的场景表示和端到端的学习框架受到研究人员的喜爱。

但NeRF per-pixel ray marching的原理天然使得效率低、过度平滑且容易发生灾难性遗忘。因此研究人员开始思考，有没有更好更快的三维场景表达形式，以实现高质量重建。

至此3DGS问世。

三维高斯喷溅（3D Gaussian Splatting, 3D GS）结合了显式辐射场的数据存储优势和隐式辐射场的网络优化特点，实现了高速度运行、高质量渲染和高可靠交互的目标，刷新了三维场景重建的各项指标SOTA，有望为高级别自动驾驶的实现提供强有力的技术支持。

原始的3DGS算法聚焦在静态场景的重建，但自动驾驶场景却是动静态场景的结合，因此最开始在自动驾驶中的应用受到了一定的限制。而自4DGS问世以来，这种限制逐渐被打破。

为了基于3D GS的场景重建技术在自动驾驶领域得到更全面更广泛的普及与推广，本文梳理了3D GS有关主题材料，并侧重于展现其优异的整体性能和蓬勃的发展态势。本文的重点在于探究基于3D GS的场景重建技术的发展脉络，其在自动驾驶领域的应用情况以及目前面临的挑战与研究前沿。本文的结构框架概略图如图1所示，具体介绍如下：第2节主要介绍3D GS研究背景，包括三维场景重建方法以及3D GS有关研究进展。第3节介绍了3D GS的主体模块，并重点揭示了3D GS核心公式的推导过程。第4节论述了3D GS在自动驾驶领域三个主要方面的应用，展现其灵活高效的优势。第5节强调了在自动驾驶领域3D GS的进一步研究方向，挖掘其潜在能力。本文的宗旨是以通俗易懂的方式带领读者了解3D GS这一种新兴技术在自动驾驶领域的研究情况，为研究人员思考如何促进高级别自动驾驶的实现提供有益帮助。

图2 论文框架示意图

1 主要贡献

第一点是全面的最新综述。我们的调查报告对自动驾驶中的3D GS进行了广泛和最新的综述，涵盖了3D场景重建方法的经典和前沿方法。

第二点是核心公式的数学介绍。我们的研究详细阐述了3D GS的数学基础，推导并说明了核心数学公式。

第三点是对未来方向的洞察。我们的调查分析了目前3D GS在自动驾驶方面的技术局限性，为未来研究提出了一些研究方向。

我们的调查可以为研究人员了解、探索、应用这种新颖的研究方法提供一个有效、便捷的途径，促进 3D GS 在自动驾驶领域的发展和应用。

引用格式如下：Zhu, H., Zhang, Z., Zhao, J. et al. Scene reconstruction techniques for autonomous driving: a review of 3D Gaussian splatting. Artif Intell Rev 58, 30 (2025). https://doi.org/10.1007/s10462-024-10955-4

2 研究背景回顾

三维场景重建方法依据设备采集数据方式的不同可以分为主动式重建技术和被动式重建技术。主动式重建技术指的是数据采集设备（如LiDAR或3D扫描仪等）主动发射信号（如激光、声波、电磁波等）至目标物体，并接收回波以解析目标的深度信息，通过数值逼近的方法来重建三维轮廓。其中，面向自动驾驶的代表方法有结构光法、TOF激光飞行时间法、三角测距法等。相较于主动式重建技术，被动式重建技术可以基于自然场景光照而得到图像数据，通过特定算法解算得到物体的立体空间信息。由于其具备设备成本低廉、应用部署快速和算法鲁棒性高等优点，因此被动式重建技术在室外场景重建受到广泛应用。其中，面向自动驾驶的代表方法有单目视觉法（Monocular Stereo Vision，MSV）、双目视觉法（Binocular Stereo Vision，BSV）和多视角立体视觉法（Multi-View Stereo，MVS）等。MSV仅使用一台摄像设备拍摄照片即可完成三维场景重建，其代表算法有阴影恢复形状法、纹理恢复形状法和轮廓恢复形状法等。MVS在BSV的基础上进一步增加相机和视角数量，依据多张已知相机姿态的图像联立建立密集的对应关系，得到场景物体表面密集的三维点云[31]。MVS不依赖于特定外界环境条件，精度高、采集快、成本低，是三维场景重建技术中的热门研究领域和重点难点领域。MVS依据处理方式的不同可以分为传统方法和深度学习方法两大类。传统MVS重建方法主要依靠视差和几何约束的思想来对三维场景进行重建，其场景几何的数学表示主要有体素、网格、点云和深度图四大类[32]。基于深度学习的MVS重建方法将其他方法的优秀思想引入神经网络，在重建质量、自动化程度和效率方面取得了显著进步。基于NeRF的三维场景重建算法具有出色的多视角一致性和连续性，无需显式三维标注，适应性强、易扩展，成为场景重建的重要研究方法之一。

但NeRF主要使用隐式的基于坐标的模型将空间坐标映射到像素值，使用体渲染和神经网络进行直接渲染，计算要求严、渲染时间过长、训练成本高。在这种背景下，三维高斯泼溅（3D Gaussian Splatting，3D GS）技术的出现作为一种范式转换方法，重新定义了场景重建与渲染的边界。如图3所示，相较于主流的NeRF算法，3D GS既保留了高质量场景重建的优点，又确保在短时间内实现SOTA级别的实时渲染效果，成为2023年末席卷三维场景重建领域的重要且突出的研究方法。

图3 3D GS与主流NeRF算法的重建质量与运行速度比较

自从法国蔚蓝海岸大学（Université Côte d’Azur，UAC）于2023年8月开源3D GS项目后，学术界掀起了轩然大波，各类衍生模型层出不穷。在自动驾驶领域，3D GS同样革新了三维场景重建和局部环境感知技术。面对蓬勃发展的自动驾驶技术，以3D GS为代表的场景重建技术在确保自动驾驶车辆安全、可靠行驶方面发挥着至关重要的作用。3D GS通过对周围环境的精确感知和快速建模，为自动驾驶系统提供了丰富的环境信息，帮助车辆更好地理解周围环境，从而做出更安全、更有效的驾驶决策。目前，已有一定的文献对3D GS的应用情况进行了综述总结，但是这些文献涵盖范围较广，关于自动驾驶领域的针对性不强。

3 3D GS数学机理

NeRF与3D GS之间一个重大的区别在于辐射场的显隐式表达。辐射场是一种量化三维空间中光的强度、分布、效果等参数的模型，可以被函数式(1)表示。

三维场景重建技术采用体素、点云等显式辐射场表示方式的一大考虑是其非常适合基于GPU/CUDA的快速光栅化。3D GS采取灵活高效的表达策略，使用3D高斯来对三维场景进行重建，并结合NeRF的网络特性来合理优化系列参数。这种融合显隐式的场景重建模式既利用了显式存储数据的可查询、可编辑性质，又吸收了隐式匹配优化数据的自动性、准确性，在保证高效的形状表示、高质量的渲染能力同时又具有快速的训练速度和实时性能。

原始3D GS模型主要基于三个模块：3D Gaussians表示模块，属性优化模块和实时渲染模块，其主要流程图如图3所示。综合来看，3D GS通过三个关键模块的紧密集成，成功地解决了三维重建领域现有算法在速度和质量之间的权衡问题。3D Gaussians表示模块提供了对复杂三维形状的紧凑和连续描述，属性优化模块确保了高斯函数能够精确地匹配输入数据，而实时渲染模块利用GPU加速的高效算法实现了高质量渲染、快速渲染和动态更新。这三个模块相互补充，共同实现了在保持高质量视觉效果的同时，3D GS可以提供快速响应和实时性能，从而在速度和质量之间取得了理想的平衡。

图4 3D GS三大模块的流程示意图

可微分3D GS方法具备可微分体积表示法的特性，可以对渲染结果进行反向传播梯度，从而实现基于梯度的优化；并且又不需要像传统的结构化体素表示法将三维空间划分为规则的网格，而可以直接在任意位置进行采样和渲染；同时通过对三维空间中的点进行高斯分布采样，根据采样结果计算颜色和密度可以明确渲染过程，从而实现快速混合渲染。基于以上特性，可微分3D GS基于无法向的稀疏（SfM）点集完成高质量新视图合成的目标，可以作为一种高效场景表示法来进行三维场景重建。3D GS的数学推导部分主要由多元高斯函数的表示、高斯体的初始化和高斯体的喷溅三部分组成[99-101]：

3.1 多元高斯函数的表示

在3D GS中，Bernhard Kerbl等人沿用了Matthias Zwicker等人在EWA Splatting中的高斯表示函数。如式(1)所示，其在世界空间下使用以点为中心的3D协方差矩阵定义多元高斯函数，和分别表示了对应于3D Gaussian位置和各向异性协方差。和标准形式相比，3D GS去掉了指数部分前面的尺度系数（但这样不影响椭球几何）；并且默认模型坐标中心在原点，方便旋转放缩，放入世界空间时再加上平移。并且函数在后续混合过程中乘以了系数，以避免SfM点的极度稀疏性导致的法线估算问题。

3.2 高斯体的初始化

3D GS大约80%的主体部分都采用PyTorch深度学习框架来构建代码运算，这就导致部分架构需要依据PyTorch进行调整和处理。在3D GS中，高斯体的和等参数需要借助PyTorch的自动微分框架来进行随机梯度下降，其中、颜色c和不透明度都较为容易获得。但由于PyTorch的自动微分框架优化时需要显示给出梯度才能确保算法正常运行，因此3D GS对进行了重参化处理。具体表达式如下所示：

3.3 高斯体的喷溅

传统光栅化是3D图形渲染中的一个关键步骤，它的主要任务是将三维空间中的几何形状（通常是三角形）转换成二维屏幕上的像素，并对其进行着色从而生成最终的图像。在现代的图形处理单元（GPU）管线中，光栅化过程通常是由硬件自动完成的，因此3D GS需要自主设计和优化CUDA内核以实现光栅化程序。3D GS将高斯体投影到投影平面后得到的2D图形称为喷溅（Splatting）。

将归一化的3D高斯沿着某个坐标轴进行积分，即可得到归一化的2D高斯。同时，2D高斯的协方差矩阵可以通过3D高斯去掉第三行和第三列直接获取，减小了计算代价。相较于传统的基于体积和积分的渲染方法（如光线追踪、路径追踪等），3D GS巧妙地利用了3D高斯与2D高斯轴向积分的等价性，从数学机理极大地减少了需要采样的空间维度，从而降低了计算的复杂性。

4 3D GS在自动驾驶中的应用4.1 新视角合成新视角合成就是这样一种将三维场景转换到新的视角的技术，它通过三维重建算法（如表面重建、体绘制等）来创建周围环境的三维模型，并将其转换到新的视角。在实际应用过程中，3D GS凭借其高效的点云处理速度、鲁棒的表面重建流程、实时的数据处理性能和灵活的视角转换过程等优势为新视角合成研究注入了新的活力。针对对于具有反射表面的场景（尤其是离散3D高斯模型）的渲染问题，Yingwenqi Jiang等人提出了一种名为GaussianShader的新型模型。GaussianShader基于3D高斯模型的最短轴方向提出了一种新的法线估计框架，并设计了一个细致的损失函数，以使法线和高斯球的几何形状保持一致，在效率和视觉质量之间取得了良好的进步和平衡。面对单目和小镜头重建技术面对的场景物体存在相互遮挡或缺乏纹理，光照条件和动态场景存在变化以及场景绝对尺度的不确定性。David Charatan等人提出了一种前向模型pixelSplat，使用3D高斯基元从图像对中重建3D辐射场，解决了广角新视角综合的问题。同时，部分研究人员结合3D GS的显式结构特点和其他方法的优异特性，在新视角合成领域不断刷新各项指标记录。

4.2 场景理解

新视角合成任务的目标是融合现有数据创建一个统一的三维场景表示，以便车辆能够准确理解当前环境。而场景理解的任务便是对环境信息进行分析、解释和推理，以识别和理解场景中对象的基本属性、联结关系以及整体布局。如图4所示，目前3D场景理解主要可以分为“3D+2D”场景理解和“3D+语言”场景理解两大类，其主要区别在于信息融合的方式和侧重点的不同。

图5 3D场景理解分类情况示意图

“3D+2D”场景理解侧重于将3D空间信息与2D图像信息相结合，以实现对场景的全面解读和解释。由于3D GS的优异性能表现，部分研究人员指出可以将2D分割基础模型的细颗粒度分割能力提炼到3D GS中，以避免传统方法的推理过程中多次前向传播导致的巨大算力和时间成本。Jiazhong Cen等人有机结合了2D分割基础模型与3D GS模型，提出了一种可以在毫秒级3D高斯中进行细粒度的3D交互式分割方法SAGA。“3D+语言”场景理解则将3D空间信息与自然语言信息相结合，以实现对场景的描述和解释。Sebastian Koch等人提出了一种无需标记场景图数据即可预测3D场景图的模型Open3DSG。Open3DSG首次依据3D点云进行交互式图表示的场景创建，利用2D视觉-语言模型的知识，通过3D图神经网络预测开放词汇的3D场景图。

4.3 同时定位与建图（SLAM）

VSLAM（Visual SLAM）依靠视觉信息进行姿态估计和地图生成，具有成本低廉、信息丰富和集成便捷等突出优点，是SLAM研究中的重点研究方向之一。Chi Yan等人提出了第一个在SLAM领域中使用3D GS表示的模型GS-SLAM。几乎在同一时间，Nikhil Keetha等人提出了基于3D GS的稠密RGB-D SLAM解决方案SplaTAM。Hidenobu Matsuki等人提出了首个完全基于3D GS的单目SLAM模型Gaussian Splatting SLAM，利用高斯体为唯一的3D 表示，以3 FPS速度首次实现了基于3D GS的实时增量式重建。同样地，Gaussian-SLAM、Photo-SLAM、NEDS-SLAM等其他工作进一步推动了3D GS-based SLAM的发展。

5. 3D GS研究前沿

5.1 结构优化

结构优化是任何算法提高性能和效率的关键途径。虽然3D GS技术能够有效地分离地面点与非地面点，但在面对遮挡、不同光照条件、快速移动物体等挑战时，其准确性和鲁棒性都会受到影响。此外，为了满足实时性的要求，3D GS技术需要进一步减少对计算资源的依赖，提高处理速度。3D GS的结构优化可以通过高斯体管理的优化、主体架构的精简、伪影现象的消除等方法来提升3D GS技术的性能，使其更加精准、高效和可靠，从而更好地适应各种复杂的现实驾驶场景。Hanlin Chen等人提出的NeuSG模型中，通过增加尺度正则化来引导高斯体的中心接近曲面，同时使用神经隐式模型来完善高斯体的点云，最终生成了具有复杂细节的完整重建曲面。主体架构的精简是指对3D GS的3D Gaussians表示模块，属性优化模块和实时渲染模块三大模块的系统架构进行优化和简化。Liu, Yan等人针对移动设备上三维重建的实时渲染问题，采用双溅射架构降低计算成本，通过减少对低贡献点的处理减少冗余数据的生成，引入线程饱和溢出操作加快整体收敛速度，并使用体素化点云进一步降低了渲染和训练开销。最终对于大规模场景数据集，改进方法在保证渲染质量的同时可以平均减少37.08%的模型空间占用。3D GS在新视角合成过程中，可能存在相机视图与训练视图之间存在多视图不一致的现象，即为伪影现象。Zehao Yu等人认为这种现象主要是使用了2D膨胀滤波器以及缺乏3D频率约束造成的。他们提出的Mip-Splatting模型引入了一个3D平滑滤波器，并用模拟2D盒式滤波器的2D Mip滤波器代替2D2D膨胀滤波器。

5.2 4D场景重建

基于3D GS在静态场景重构和新视角合成的成功与潜力，研究人员希望将3D GS进一步扩展应用到动态场景中，以实现高级别自动驾驶的实时性要求。4D场景重建技术不仅需要车载系统高质量重建3D空间结构，还需要考虑时间维度上的变化，特别是捕捉复杂动态的刚性运动对象。Lingzhe Zhao等人[157]将3D GS引入运动模糊图像的处理，提出了一种名为BAD-Gaussians的模型。BAD-Gaussians引入了专为运动模糊图像设计的光度束调整公式，首次在3D GS拼接框架内实现了运动模糊图像的实时渲染性能。4D场景重建技术要求模型对运动过程中光线变换具有较强的追踪能力，Jian Gao等人[159]开发一个基于3D高斯表示的综合渲染流水线Relightable 3D Gaussian，可以支持重照、编辑和射线追踪的重建三维点云，可以达到实时渲染水平。同时，已经有部分研究人员着手直接建立4D GS模型。虽然具体的研究方法不同，但其核心思路就是引入同一尺度来协调好3D GS与时间戳之间的动态关系。Guanjun Wu等人使用紧凑表示和高效变形场来建模高斯体的运动和形状变化，随后将高斯体喷溅到时间戳图像上，最终建立了同一的4D GS模型。

5.3 车辆导航

导航技术可以为车辆提供必要的位置信息和行驶路线，是实现高级别自动驾驶的关键性基础性服务之一。基于3D GS在自动驾驶的场景重建领域表现出的优异性能，将3D GS进一步扩展到自动驾驶导航领域的研究中，可以有效打破现有导航方法的质量和效率瓶颈，实现自动驾驶导航精度和可靠性的跨越发展。当车载系统可以对世界环境进行逼真的物理模拟时，意味着车辆导航行驶中将具备模拟和预测周围环境变化的能力，从而能够更加智能地感知、规划和决策。Tianyi Xie等人将基于物理的牛顿动力学与3D GS无缝集成，提出了一种可以有效进行物理模拟的新型模型PhysGaussian。在车辆导航过程中，如何将多模态融合数据进行精确得到时空对准是重要的研究方向之一。Quentin Herau等人提出了一种基于3D GS的校准方法3DGS-Calib，与现有的隐式神经方法相比校准速度更快、校准精度更高，可以高效完成车载多模态的时空校准任务。探索一种适普通用、简洁高效的目标导航算法框架是目前自动驾驶车辆导航领域研究人员的共同目标之一。Xiaohan Lei等人提出了一种基于3D GS的实例图像目标导航模型GaussNav，将原先的实例图像目标导航任务转化为相对容易处理的点目标导航任务，利用子高斯划分、语义高斯构建和高斯导航三个主要阶段有效定位目标物体，最终性能实现了显著提升。

6. 结论

本文对面向自动驾驶的基于3D GS的三维场景重建技术研究进行了全面综述，叙述了3D GS的基本情况和在自动驾驶领域的应用情况，内容涵盖了目前的最新研究成果。本文首先对3D GS的研究背景做出全面介绍。随后，本文以3D GS核心公式的数学机理探究为主体，讨论了3D GS高性能的原因。然后，本文针对3D GS在自动驾驶领域的新视角合成、场景理解和SLAM三个主要应用方向展开论述，强调其对自动驾驶领域带来的革命性研究风潮。最后，本文深入探讨了3D GS在该领域面临的问题和研究前沿方向。本文针对性地概述了3D GS作为新兴三维场景重建技术的基本原理、发展情况和在自动驾驶领域的应用情况，旨在为研究人员快速理解与熟悉3D GS提供可靠渠道，为相关科研工作提供更加广阔的视野和思路。

#自动驾驶相关成果POSTER~

新加坡国立大学等团队的工作：DOGS: Distributed-Oriented Gaussian Splatting for Large-Scale 3D Reconstruction Via Gaussian Consensus

论文链接：https://arxiv.org/abs/2405.13943

南洋理工大学等团队的工作：Reasoning Multi-Agent Behavioral Topology for Interactive Autonomous Driving

论文链接：https://arxiv.org/abs/2409.18031

清华AIR等团队的工作：Learning Cooperative Trajectory Representations for Motion Forecasting

论文链接：https://arxiv.org/abs/2311.00371

密歇根大学安娜堡分校等团队的工作：Is Your LiDAR Placement Optimized for 3D Scene Understanding?

论文链接：https://arxiv.org/abs/2403.17009

加利福尼亚大学等团队的工作：SimGen: Simulator-conditioned Driving Scene Generation

论文链接：https://arxiv.org/abs/2406.09386

北理工等团队的工作：VLMimic: Vision Language Models are Visual Imitation Learner for Fine-grained Actions

论文链接：https://arxiv.org/abs/2410.20927

香港科技大学和OpenDriveLab等团队的工作：Vista: A Generalizable Driving World Model with High Fidelity and Versatile Controllability

论文链接：https://arxiv.org/abs/2405.17398

港中文&商汤等团队的工作：Visual CoT: Advancing Multi-Modal Language Models with a Comprehensive Dataset and Benchmark for Chain-of-Thought Reasoning

论文链接：https://arxiv.org/abs/2403.16999

#Q-wen2vl/Internvl2.5

动态分辨率输入方案解读

每一个网络都有下采样倍数，那么输入的图像尺寸按理说应该是他的整数倍，能保证刚好被整除。以qwen2vl（vision backbone 下采样 28 倍）为例，动态分辨率核心要考虑三个点

图像在resize的时候，既需要考虑图像尺寸是 28 的整数倍
也需要考虑尽可能的保证图像resize不失真，也就是保持宽高比。比如512x512的图像，如果resize 到了128x2048，那么图像就会严重失真。
其次就是训练的泛化性，推理的时候输入更小/大的图像（尤其视频帧），模型能不能外推。

一个冷知识：mac上显示和实际图像大小可能不一致，猜测这是因为mac显示的时候也做了动态分辨率的resize，保证显示效果。

实际测试发现，mac 上看详情，图像尺寸 1224x926，pil 读入的size是1232x924，size不一致。image save到本地后再看尺寸还是1224x926。

qwen2vl动态分辨率逻辑

qwen 对图像有三层处理逻辑：

# 第一步 resize 
if do_resize:resized_height, resized_width = smart_resize(height,width,factor=self.patch_size * self.merge_size,min_pixels=self.min_pixels,max_pixels=self.max_pixels,)image = resize(image, size=(resized_height, resized_width), resample=resample, input_data_format=input_data_format)# 第二步 rescale 
if do_rescale:image = self.rescale(image, scale=rescale_factor, input_data_format=input_data_format)# 第三步 normalize
if do_normalize:image = self.normalize(image=image, mean=image_mean, std=image_std, input_data_format=input_data_format)# 第四步 堆叠...

因为qwen2vl vit的后面有一个MLP做的pooling（x2），加上vit本身的降采样（x14），总共图像在宽、高上会降采样2x14=28倍。

第一步 smart resize

smart resize 分为两步：

1、算宽高 28的整数倍最接近的数值

h_bar = round(height / factor) * factor
w_bar = round(width / factor) * factor

2、统一放缩。这里有两个关键的参数min_pixels和max_pixels。这两个关键参数用来计量总的像素数，pixels = hxw。如果超过了max_pixels，那么就会统一resize到 min_pixels 和 max_pixels之间。

if h_bar * w_bar > max_pixels:beta = math.sqrt((height * width) / max_pixels)h_bar = math.floor(height / beta / factor) * factorw_bar = math.floor(width / beta / factor) * factor

第二步 rescale

这一步有一个关键的参数，rescale_factor。qwen2vl 默认取 0.00392156862745098（其实就是1/255），得到的结果就是 rescale_factor 逐元素相乘 image。

image = self.rescale(image, scale=rescale_factor, input_data_format=input_data_format)

第三步 normalize

很传统的按照mean，std归一化。

第四步堆叠凑时间步

因为qwen的vit最开始的embed方式是一个2x3x3的conv，所以需要把单图copy成2份，比如对于(1, 3, 924, 1232) 的图像就变成了(2, 3, 924, 1232)。

patches = np.tile(patches, (self.temporal_patch_size, 1, 1, 1))

训练泛化性讨论

根据qwen2vl提供的7B叙述，min_pixel是3136，max_pixel是12845056，如何h和w一样大的话，大概可以兼容从 56* 56 到 3584x3584的图像输入。但是对于video的每帧，考虑到多帧情况，最大是16384。并且由于scale到了min_pixels 和 max_pixels之间，所以泛化性不是问题。实际训练中也发现了，调整小max_pixel，对性能影响不大（不过这个也看啥任务）。

internvl2动态分辨率逻辑

总的来说，internvl的逻辑更加复杂一些。以最新的internvl2.5来看，internvl的处理逻辑基本没有变化。相比于qwen的动态分辨率，internvl2的逻辑更加高清一些，所以名字起的也很好，叫dynamic high resolution。

代码如下，最重要的就是dynamic_preprocess这个函数。

def load_image(image_file, input_size=448, max_num=12):image = Image.open(image_file).convert('RGB')# 第一步 transformtransform = build_transform(input_size=input_size)# 第二步 动态分辨率images = dynamic_preprocess(image, image_size=input_size, use_thumbnail=True, max_num=max_num)pixel_values = [transform(image) for image in images]# 第三步 堆叠pixel_values = torch.stack(pixel_values)return pixel_values

第一步 transform

常规操作，直接绕过

IMAGENET_MEAN = (0.485, 0.456, 0.406)
IMAGENET_STD = (0.229, 0.224, 0.225)def build_transform(input_size):MEAN, STD = IMAGENET_MEAN, IMAGENET_STDtransform = T.Compose([T.Lambda(lambda img: img.convert('RGB') if img.mode != 'RGB' else img),T.Resize((input_size, input_size), interpolatinotallow=InterpolationMode.BICUBIC),T.ToTensor(),T.Normalize(mean=MEAN, std=STD)])return transform

第二步 dynamic_preprocess

dynamic_preprocess 的默认参数如下，image_size 448是因为internvl需要把图像拆分成patch，训练/测试都是448，use_thumbnail 是指用一个缩略的头图保持整体的全局信息，max_num表示一个patch的最大数目。

dynamic_preprocess(image, image_size=448, use_thumbnail=True, max_num=12)

同样是从宽高比下手

aspect_ratio = orig_width / orig_height

他会根据max_num 拆解成35组不同的宽高比，最极限的就是 1:max_num。

[(1, 1), (1, 2), (2, 1), (3, 1), (1, 3), (2, 2), (4, 1), (1, 4), (5, 1), (1, 5), (1, 6), (6, 1), (3, 2), (2, 3), (7, 1), (1, 7), (4, 2), (2, 4), (1, 8), (8, 1), (1, 9), (3, 3), (9, 1), (2, 5), (5, 2), (10, 1), (1, 10), (11, 1), (1, 11), (12, 1), (3, 4), (4, 3), (1, 12), (6, 2), (2, 6)]

然后会通过逻辑代码的对比，找到一个失真最小的宽高比

target_aspect_ratio = find_closest_aspect_ratio(aspect_ratio, target_ratios, orig_width, orig_height, image_size)

由于base_size = 448，得到 image最接近的宽高比之后，需要相乘变成最后的图像大小。

target_width = image_size * target_aspect_ratio[0]
target_height = image_size * target_aspect_ratio[1]
blocks = target_aspect_ratio[0] * target_aspect_ratio[1]

比如对于我们输入的图像尺寸是(w, h) = (1224, 926)，最合适的宽高比是 (4, 3)。

target_width：1792 = 448 * 4
target_height：1344 = 448 * 3

接着就到了crop patch了。还是上面的例子，internvl会得到没有overlap的crop成 448x448的基础块。当然最后还有一个头图是直接把图像resize到448。

# 第0个patch (0, 0, 448, 448)
# 第1个patch (448, 0, 896, 448)
# 第2个patch (896, 0, 1344, 448)
# 第3个patch (1344, 0, 1792, 448)
# 第4个patch (0, 448, 448, 896)
# 第5个patch (448, 448, 896, 896)
# 第6个patch (896, 448, 1344, 896)
# 第7个patch (1344, 448, 1792, 896)
# 第8个patch (0, 896, 448, 1344)
# 第9个patch (448, 896, 896, 1344)
# 第10个patch (896, 896, 1344, 1344)
# 第11个patch (1344, 896, 1792, 1344)

第三步堆叠

还是上面这个case，就会得到 pixel_value，尺寸是。

训练泛化性讨论

不同于qwen 的整张图 resize，internvl 的crop patch输入是一种sliding window的方式。之前做分割的时候，或者low-level 任务，很多都是sliding window 然后merge。光通过建模方式也无法说qwen的好，还是internvl2.5的动态分辨率效果更好。我的感觉是视觉encoder架构出发，比如vit g的感受野已经很大了，无论哪种方式网络都能看全图像了，不论是patch化还是整张图，所以区分度不是很大，反而qwen2vl的实现更加简单一些。

token 数横向对比

除此之外，我们可以讨论下qwen2vl和internvl2.5对于相同图像的token花费，判断这种image tokenizer的性价比。还是 (w, h) = (1224, 926) 这张图像拿来讨论吧。

qwen2vl

图像的输入是 (2, 3, 924, 1232) ，qwen2vl需要 reshape成如下格式喂给视觉编码器。reshape 过程太长，忽略。图像最后reshap的尺寸是 (5808, 1176) 。

grid_t * grid_h * grid_w, \
channel * self.temporal_patch_size * self.patch_size * self.patch_size

qwen2vl vision encoder最后一个block的结构是

PatchMerger((ln_q): LayerNorm((1280,), eps=1e-06, elementwise_affine=True)(mlp): Sequential((0): Linear(in_features=5120, out_features=5120, bias=True)(1): GELU(approximate='none')(2): Linear(in_features=5120, out_features=3584, bias=True))
)

最后vision encoder 部分输出1452,3584这样一个 embedding，我们可以简单乘一下算下这个embedding占用大小 1452x3584=5,203,968

internvl2

internvl 采用了自己研发的 InternVisionModel，最后的特征融合层会把特征转化为 896维度的向量

(mlp1): Sequential((0): LayerNorm((4096,), eps=1e-05, elementwise_affine=True)(1): Linear(in_features=4096, out_features=896, bias=True)(2): GELU(approximate='none')(3): Linear(in_features=896, out_features=896, bias=True)
)

所以，internvl会把13,3,448,448的patch块变成13,256,896的向量，原本448的空间维度首先下采样16倍，变成28，然后28x28的空间维度会一起变成256。所以一张 (w, h) = (1224, 926) 的图像会变成13x256=3328个token，token的维度是896。

当然，vlm还需要 eos 等符号，internvl 是 IMG_START_TOKEN + IMG_CONTEXT_TOKEN * self.num_image_token * num_patches + IMG_END_TOKEN。其他的

这样的标志符我们就忽略计算了，因为这些token很少。

最后的embedding大小是2,981,888。

讨论

对于 (w, h) = (1224, 926) 的图像，按照默认参数，internvl2.5的embedding大小是2,981,888，而qwen2vl是5,203,968，居然更大！这有些反直觉，因为qwen2vl只输入了一张图，但是internvl2.5crop 了12个patch堆叠输入。分析原因发现主要就是qwen vision encoder 输出的channel 维度（3584）太大了，并且internvl系列 patch之间没有overlap，只是多了个一个缩略图的patch额外计算。

但是能不能说qwen2vl就不行呐？qwen2vl可以调整max_pixel，实际在我的case中，我在缩小max_pixel 到1/2，1/4的时候，并没有发现qwen2vl的性能有明显下降，甚至1/2变得更好了一点点...

所以综上，目前来看，条条大路通罗马。对于默认设置，其实internvl2.5需要的image token embedding 更小，但是qwen2vl再调整max_pixel之后也不会造成明显的性能降低，仁者见仁了。peace

#RoboMM

集于一体的机器人操作多模态大型模型

在人工智能的快速演进中，xx智能逐渐成为一个重要的研究领域，展现了从单一数据源到迁移学习，再到空间智能与一脑多形的发展历程。这一转变不仅推动了机器人技术的进步，也为实现更复杂的智能系统奠定了基础。

1、单一数据源的限制

最初，机器人学习主要依赖于单一数据源进行训练。这种方法虽然在特定任务上取得了一些成功，但往往缺乏灵活性和适应性。单一数据源的模型在面对新环境或新任务时，表现出明显的局限性。例如，一款专注于执行特定操作的机器人在新的工作场景中可能会遇到困难，难以有效应对变化。

此外，研究模型的结构对成功率也起到了重要作用。以行为克隆（Behavior Cloning, BC）为例，传统的深度学习方法在模仿学习中常常依赖于直接从专家示例中学习，但这种方法在面对复杂环境时，容易受到训练数据的限制，导致模型的泛化能力不足。

随着技术的进步，新的模型结构不断涌现。近年来，随着 Transformer 在文本处理领域的成功，计算机视觉（CV）也逐渐迎来了新的发展。RT1 首次将 Transformer 应用到机器人控制中，展示了其在动态环境中的潜力。同时，扩散（Diffusion）模型在图像生成领域的火热发展为xx智能提供了新的思路。扩散模型现已以 2D 输入的方式应用于机器人控制，后续的 3D Diffusion Actor 和 3D Diffusion Policy 等新型模型结构，通过利用扩散模型的强大生成能力，使得机器人能够在更复杂的三维环境中进行有效的决策和控制。这些模型不仅提升了模仿学习的成功率，还增强了机器人在动态环境中的适应能力。

为了克服这些局限性，研究者们开始探索更为复杂的学习机制，以增强机器人的适应能力和智能水平。

2、迁移学习的崛起

迁移学习的引入为xx智能的发展注入了新的活力。引入大模型思想，或借助大模型，或借助相关数据，迁移学习使得机器人能够更快地适应新任务。这一方法的核心在于利用已有的知识库，提升学习效率和效果。

例如，RT-2 首次证明利用网络多模态数据预训练同样可以提升机器控制能力，随后 Roboflamingo 和 Obouniview 分别借助多模态大模型及自动驾驶相关技术进一步提升效果。GR-2 则通过视频生成技术实现了更高效的学习和适应。

然而，尽管迁移学习在预训练阶段表现出色，但在实际应用中，模型仍然需要在特定机器的单一数据上进行微调（fine-tuning）。这种微调过程使得模型能够更好地适应特定任务和环境，从而提高其在实际应用中的性能。

3、空间智能与一脑多形

随着技术的不断进步，xx智能逐渐向空间智能和一脑多形的方向发展。空间智能强调机器人在复杂的三维环境中进行感知和决策的能力，而一脑多形则意味着同一个智能系统能够灵活地根据不同任务的需求，自主调整其行为和策略。

在这一阶段，许多新型模型和框架应运而生，以应对多样化的应用需求。例如，RT-X、Octo、OpenVLA、CrossFormer 和 HPT 等模型通过多模态大模型的多数据微调，或通过异构设计来提升不同数据之间的兼容性。然而，这些模型仍主要局限于 2D 空间，未能有效解决不同数据和形态之间的异构性问题。xx智能要求机器人能够在复杂的三维环境中执行任务，因此，模型必须具备 3D 的感知和决策能力。同时，保持 3D 空间的一致性对于解决不同数据源和形态之间的不一致性至关重要。

为此，RoboMM论文应运而生：RoboMM，这是一种专为机器人操作设计的多模态大模型，结合了 RoboData，一个综合性的多数据集，旨在整合多种数据源以弥补现有数据集的不足。RoboMM 通过结合相机参数和占用监督，增强了对三维环境的感知能力。此外，借助像 OpenFlamingo这样的先进语言模型，设计了高效的模态隔离掩码，灵活地引入多模态监督。这种设计不仅提高了模型的细粒度感知能力，还使其能够更有效地利用来自互联网的大量数据。

在数据方面，虽然 Open X-Embodiment整合了多个数据集，但缺乏多视角图像、相机参数和深度图等关键信息，使其更适合于 2D 多模态训练。此外，数据空间对齐的缺失导致机器人在不同数据集上的 6D 姿态不一致。而 RoboData 则通过整合多个行业知名数据集，解决了这些问题。补充了深度图和相机参数等缺失的模态。更重要的是，RoboData 通过统一物理空间，对跨机器人和平台的输入输出空间进行了对齐，确保了一致性，促进了来自多样化机器人数据集的集成学习。

RoboData 旨在为行业提供全面且公平的评估系统，而 RoboMM 则是首个能够在多个数据集上进行训练和测试的通用策略。大量实验结果表明，RoboMM 的各个组件显著提升了机器人操作任务的性能，在CALVIN基准测试中，平均序列长度从 1.7 提升至 3.3。此外，RoboMM 还确保了跨体能力，并在多个数据集上达到了最先进的结果!

4、未来展望

xx智能的发展历程表明，从单一数据到迁移学习，再到空间智能的一脑多型，技术的演变不断推动着机器人领域的创新。未来，xx智能有望在智能家居、自动驾驶、工业自动化等多个领域发挥更大的作用。

随着技术的不断进步，xx智能将能够在更复杂的环境中自主决策，真正成为人类的得力助手。通过不断学习和适应，xx智能不仅是技术的代表，更是未来智能生活的重要组成部分。

参考：

RoboMM: https://robouniview.github.io/RoboMM.github.io/

#智能驾驶大逃杀~

<一>、端到端自动驾驶

1、基于矢量表征和概率规划的端到端自动驾驶

回放1：https://t.zsxq.com/gLPtj
回放2：https://t.zsxq.com/Ng4Sa

2、CVPR'24端到端自动驾驶挑战赛冠军方案Hydra-MDP

回放1：https://t.zsxq.com/s8BRV

3、自动驾驶预测决策一体方法论和思考，探讨端到端范式及Waymo冠军方案

回放：https://t.zsxq.com/B4mdo

4、端到端自动驾驶评测框架与生态思考—Bench2Drive！

回放：https://t.zsxq.com/EaQlF

5、大模型时代下的端到端自动驾驶该何去何从？

回放1：https://t.zsxq.com/rINgj
回放2：https://t.zsxq.com/rHf3b
回放3:https://t.zsxq.com/WKSH5

6、开环端到端自动驾驶的诸多问题！

回放：https://t.zsxq.com/RKsw0

国内首个可实车量产部署的自动驾驶端到端建模方法—GraphAD

回放：https://t.zsxq.com/nfRpO

<二>、世界模型

1、极佳科技提出的驾驶世界模型DriveDreamer v1&v2

回放1：https://t.zsxq.com/U7xsN
回放2：https://t.zsxq.com/W35ED
回放3：https://t.zsxq.com/z1qki
参考资料：https://t.zsxq.com/o6ISa

2、CarDreamer：首个开源世界模型自动驾驶平台

回放1：https://t.zsxq.com/Dhy7G
回放2：https://t.zsxq.com/S27Te
课件：https://t.zsxq.com/Bf52t

3、通用可泛化的自动驾驶世界模型系列工作GenAD&Vista

回放1：https://t.zsxq.com/LsE0w
回放2：https://t.zsxq.com/FDcG8
参考资料：https://t.zsxq.com/Lh2hA

<三>、大模型

1、自动驾驶中的多模态大语言模型

回放1：https://t.zsxq.com/Zd8eI
回放2：https://t.zsxq.com/wMRGV

2、扩散模型和大模型的算法创新！

回放：https://t.zsxq.com/PPgXZ

3、3D视觉大模型的前置方案探索，包括DSVT+UniTR

回放：https://t.zsxq.com/nvoU7

<四>、xx智能

1、ELM：自动驾驶xx场景理解

回放1：https://t.zsxq.com/3YE8K
回放2：https://t.zsxq.com/jrr42

2、BehaviorGPT：基于自回归Transformer的交通智能体行为仿真

回放：https://t.zsxq.com/4ML4K

3、揭秘：全球最大的双臂机器人扩散大模型

回放：https://t.zsxq.com/ytu0K

4、迈向机器人操作的基础模型

回放：https://t.zsxq.com/LgXtN

5、面向xx智能的在线三维场景感知

回放：https://t.zsxq.com/tiWHc

6、面向xx智能的毫米波成像雷达感知！

回放：https://t.zsxq.com/QjIPy

<五>、重感知轻地图

1、基于连续路径建模的车道拓扑构建算法

回放：https://t.zsxq.com/6kTdr
参考资料：https://t.zsxq.com/TaIlG

2、在线高精地图新思路MapTracker

回放：https://t.zsxq.com/cq6HC
参考资料：https://t.zsxq.com/XaBE5

3、P-MapNet：融合标精地图提升在线Map感知性能

回放：https://t.zsxq.com/VSoIE
课件：https://t.zsxq.com/iWLFP

<六>、自动驾驶仿真

1、自动驾驶闭环生成仿真平台DriveArena

回放：https://t.zsxq.com/2Wddb
参考资料：https://t.zsxq.com/RDC7U

2、首个开源的3DGS闭环仿真器GaussianRPG

回放：https://t.zsxq.com/zz0OF
参考资料：https://t.zsxq.com/0MTFI

3、条件图像生成及其在自动驾驶仿真中的应用

回放:https://t.zsxq.com/uRZ1x

4、仿真器条件下的驾驶场景生成新方案SimGen

回放：https://t.zsxq.com/LIHo2

<七>、自动驾驶感知

1、ScatterFormer，超越所有3D目标检测方案，问鼎Waymo

回放：https://t.zsxq.com/hTXKf
课件：https://t.zsxq.com/1te51

2、基于点集稀疏表征的占据网格预测

回放1：https://t.zsxq.com/fMr1l
回放2：https://t.zsxq.com/NANob
参考资料：https://t.zsxq.com/ZWEed

3、开放世界3D场景理解新思路

回放1：https://t.zsxq.com/alRrX

4、ECCV 2024 鉴智成果大揭秘

回放：https://t.zsxq.com/Fcysv
参考资料;https://t.zsxq.com/3Hm1O

5、OASIS SIM V3 交通流如何为自动驾驶算法提供应对CornerCase的挑战

回放1：https://t.zsxq.com/PULRK
回放2：https://t.zsxq.com/Js8Bw

6、自动驾驶超级鲁棒性感知论坛

回放1：https://t.zsxq.com/gHamc
回放2：https://t.zsxq.com/Qr9U3
回放3：https://t.zsxq.com/cwtsf
回放4：https://t.zsxq.com/X6geV
回放5：https://t.zsxq.com/luxVt

7、智加提出DualBEV：基于双向统一权重的BEV检测

回放1：https://t.zsxq.com/3hoU3
回放2：https://t.zsxq.com/4XDWB

8、IROS&ECCV的动静态感知成果

回放：https://t.zsxq.com/C7dsX

#世界模型才是智驾唯一解？

造车新势力们对于自动驾驶世界模型的探索路线有何异同？

从 BEV 感知的纯视觉路线，到重感知、轻地图的「无图化」趋势，再到今年年中，推崇的「端到端」技术路线，这一年各家车企们的大体智驾技术方向几乎相差无几。

尽管「端到端」的技术思路大幅削减传统模块化方案中的手写代码的局限性，及信息传输中存在的延迟和数据缺失问题。但业内有观点认为，端到端的本质仅是拟合现有数据，并没有给出某些智能逻辑，因此模型的能力受到数据的表现限制。数据驱动的端到端只能实现 L3，要通往 L4，则需要引入基于知识驱动的世界模型。

01. 「端到端」模型上车概念的热潮下，世界模型才是通往 L4 的关键？

为什么说世界模型是通往 L4 级别的关键？

02.世界模型如何在智驾系统中发挥作用？解决了哪些问题？

与端到端大模型相比，区别是什么？解决什么难题？在实际落地应用中，世界模型在智驾系统中的哪些部分起具体作用？

03. 哪些车企押注看好世界模型？

有哪些车企在方案中引入了世界模型？思路上有何异同？

01 「端到端」模型上车概念的热潮下，世界模型才是通往 L4 的关键？

1、近日，小米继 SU7 之后，又官宣了其 YU7 车型，迅速引发了关注。在「蔚小理」的国内新势力车企格局之下，华为作为高阶智驾市场方案提供商的第一梯队，与闯入造车新势力的小米，共同形成了「蔚小理华米」的格局。

2、从 BEV 感知的纯视觉路线，到重感知、轻地图的「无图化」趋势，再到今年年中，推崇的「端到端」技术路线，这一年各家车企们的大体智驾技术方向几乎相差无几。

① 今年，各家新势力的车企在高阶智驾的路线方向主要集中在「端到端」大模型上车。接近年末，各家车企将「端到端」的思路进一步宣传为消费者更能感知的「车位到车位」的概念。小鹏汽车在今年 11 月的广州车展上，发布了全新的「车位到车位」智驾方案。理想、蔚来等其他车企也陆续推出相关定位的产品。

3、随着技术的进一步发展和成熟，各家车企正在从 L2 到 L3、甚至 L4 级别迈进。尽管「端到端」的技术思路大幅削减传统模块化方案中的手写代码的局限性，及信息传输中存在的延迟和数据缺失问题。但业内有观点认为，端到端的本质仅是拟合现有数据，并没有给出某些智能逻辑，因此模型的能力受到数据的表现限制。数据驱动的端到端只能实现 L3，要通往 L4，需要引入基于知识驱动的世界模型。

02 世界模型如何在智驾系统中发挥作用？解决了哪些问题？

1、自动驾驶领域的「生成式世界模型」的概念最早来自 CVPR2023 自动驾驶的研讨会，特斯拉和 Wayve 两家的介绍。[1]

① 特斯拉介绍其「世界模型」，可以在云端生成用于模型训练和仿真的驾驶场景，同时还可以压缩部署到车端；

② Wayve 发布了名为「GAIA-1」的生成式世界模型，能够同时输入视频、文本和动作来生成真实的驾驶场景，同时提供对自车行为和场景特征的细粒度控制。GAIA-1 学习到的强表征能力包括高级结构和场景动态、情境意识、概括和理解几何信息等，能够理解并再现世界的规则和行为。该模型将世界建模视为序列建模问题，通过把输入转化为离散的 tokens，预测序列中的下一个 token。[2]

2、现有的自动驾驶系统在面对非结构化的复杂现实世界场景时仍充满挑战，关键问题在于有效地预测各种可能出现的潜在情况以及车辆随着周围世界的演化而采取的动作。世界模型在自动驾驶中的应用可以简单分为两部分，即理解世界和预测未来。[3]

① 世界模型需要实时的感知道路条件，并准确预测其变化。具体来说，世界模型通过感知模块（摄像头、雷达、激光雷达等）收集的图像、视频和点云数据来理解世界，执行物体检测和地图分割，然后将感知的环境信息投影到几何空间，由此构建对周围环境的隐式表示，进一步进行决策；

② 接着，世界模型预测模块在这些几何空间内运作，预测周围环境的未来状态，包括交通参与者的轨迹和运动等，对于车辆的预测和规划至关重要。

③ 世界模型通过提供一个统一的框架来处理感知、预测和规划，使得自动驾驶系统能够更有效地理解和响应复杂的交通环境。这种集成的方法有助于减少信息丢失，提高决策的准确性，并最终提升自动驾驶系统的性能。

3、世界模型在自动驾驶中的整合，主要集中在场景生成、规划与控制机制方面。

① 传统的传感器仿真方法，如 NeRF 与 3DGS，主要依赖于训练数据分布，若训练数据不足，则这些方法在复杂驾驶操作（例如变道、加速或减速）的重建效果不佳。自动驾驶世界模型作为数据生成引擎，通过学习真实世界的驾驶数据分布，来生成多样化和逼真的驾驶场景视频，不依赖于人工标注的数据，可以为自动驾驶系统提供丰富的训练数据，使自主系统具备在稀有和复杂驾驶场景中导航的稳健性。例如，GAIA-1 和 DriveDreamer 模型。

② 除了场景生成外，世界模型在预测、规划中的应用较多，世界模型通过实时预测道路环境的变化，来规划最佳行驶路径。例如中科院自动化所提出的自动驾驶世界模型「Drive-WM」，通过多视角和时间建模，共同生成多个视角的帧，然后从相邻视角预测中间视角，显著提高多个视角之间的一致性。同时，与端到端的自动驾驶规划器相结合，利用生成的视频来微调规划器，从 OOD 数据中进行学习，使得规划器在面对这样的场景时可以拥有更好的性能。[4]

3、目前，世界模型在实际车企中的落地应用，主要生成数据和提高决策安全性两个方面。通过引入了世界模型以重建+生产的方式来生成模拟数据，为自动驾驶系统能力的学习和测试创造虚拟环境；另一是通过将驾驶视频作为输入，生成更长时间的预测视频，为智能驾驶系统提供预测和决策支持，提高系统的稳定性及决策的安全性。

4、业内有一种观点认为，世界模型成为像 GPT 一样的自动驾驶领域的基础模型，而其他自动驾驶具体任务都会围绕这个基础模型进行研发构建。而不仅仅是被当作一种仿真工具来生成仿真数据......

#LMPOcc

即插即用！长安&复旦：长期记忆先验实现Occ新SOTA~

在基于视觉的自动驾驶感知算法当中，3D语义占用预测任务可以出色的对静态场景和动态目标同时进行建模，实现细粒度的场景理解，目前受到了来自学术界和工业界的广泛关注。

论文题目：LMPOcc: 3D Semantic Occupancy Prediction Utilizing Long-Term Memory Prior from Historical Traversals

论文作者：Shanshuai Yuan, Julong Wei, Muer Tie, Xiangyun Ren, Zhongxue Gan, Wenchao Ding论文地址：https://arxiv.org/pdf/2504.13596

在自动驾驶车辆实际行驶过程中，可能会在不同时间点多次行驶经过相同的地理坐标位置。但由于天气条件、光照变化和遮挡等动态环境因素的影响，自动驾驶感知算法的预测结果会出现显著的差异。因此，从当前位置的历史信息中获取感知结果作为先验知识，能够提供重要的概率约束，以缓解当前时间观测窗口内实时传感器观测的不足。

现有的感知算法通常采用BEV特征对齐、自注意力机制或者3D卷积来实现级联帧的信息融合，如图1（a）所示。但这类方法依旧无法解决当遇到严重遮挡或光照不足等具有挑战性的观测条件时，检测性能仍然不理想的问题，因为当前和相邻的观测都受到共同挑战条件的影响。

图1：3D占用预测任务中不同时序融合算法对比

在这种情况下，利用在有利观测条件下从同一位置收集的历史感知信息可以有效解决这一限制。因此，将长期记忆先验整合到3D占用预测中至关重要。

结合上述分析，本文提出了长期记忆先验占用算法，一种通过利用不同时间戳下同一空间位置的历史感知信息，将跨时间长期记忆先验融入3D占用预测的算法框架。在Occ3D-nuScenes数据集上的实验结果表明LMPOcc算法能够有效提升3D占用预测任务的性能，并实现了SOTA的结果。

本文主要贡献如下：

本文提出了LMPOcc算法模型，首个利用从相同地理位置的历史感知输出中生成的长期记忆先验的3D占用预测方法。

本文开发了一种即插即用的架构，该架构通过长期记忆先验增强局部感知，同时构建全局占用表示。

在Occ3D-nuScenes基准上实验表明，LMPOcc实现了SOTA的性能，尤其在静态语义类别上表现突出。此外，LMPOcc展示了通过多车众包构建全局占用的能力。

本文提出的LMPOcc算法模型的整体网络结构如图2所示。整体可以看出LMPOcc通过融入长期记忆占用先验模块LMOP来扩展占用预测模型。

图2：LMPOcc算法模型的整体网络结构图

具体而言，该算法框架的输入包括环视图像以及自车由局部到全局坐标的转换关系。输入的环视图像通过Occupancy Encoder完成图像特征编码，随后这些特征被送入到LMOP模块中用于获得增强的占用逻辑结果，随后这些结果通过Occupancy Decoder进行处理得到最终的3D语义占用预测。

长期记忆占用先验

在LMOP模块中，全局占用采用稀疏地图块结构，每个块在几何上与物理坐标对齐，并且初始化为空状态。稀疏地图块结构通过仅存储可通行的城市区域来降低内存使用量。其基于坐标的索引方式允许车辆根据需求加载特定地图区域，消除了存储整个城市地图的需求。对于每一个块而言，作者迭代更新全局占用表示。

考虑到BEV形式的先验信息降低了存储成本并提高了局部和全局索引的效率，局部和全局的先验特征被表示为BEV形式。

此外，本文为了对齐局部和全局占用的对应关系，通过卷积层对齐先验和当前特征通道，然后将当前特征与先验特征融合，以增强局部感知。增强的感知输出作为更新的先验，替换全局占用中相应的先验特征。

当前先验融合

当前先验融合模块包括两个分支，分别是拼接分支和基于元素相加分支。拼接分支将当前特征和先验特征形成结合特征，如下公式所示。

基于元素相加的分支，通过如下的方式得到二者基于元素相加的结果。

两个分支得到的特征进行拼接，并通过Sigmoid激活函数得到一个张量，如下所示。

该张量充当一个加权因子用于动态的调节当前特征和先验特征在融合过程中的贡献程度。

模型无关先验格式

先验信息以占用逻辑值的形式存储，确保全局占用率先验信息在部署期间不受任何特定占用率预测模型的影响。为了避免在先验中存储可见区域之外的噪声，本文采用相机可见性掩码来保留占用逻辑单元可观察区域内的内容。

相机可见性掩码是通过从每个已占用体素中心向相机原点投射射线来确定的。沿着每条射线，第一个相交的已占用体素被标记为“已观察”，而同一射线上的后续体素则被标记为“未观察”。任何未与这些射线相交的体素都会自动被分配“未观察”状态。

本文在Occ3D-nuScenes数据集上验证提出算法的有效性，并且采用mIoU标准作为评价算法模型实验效果的指标。

图3展示了在Occ3D-nuScenes数据集上LMPOcc与其他SOTA算法模型的比较结果汇总。

图3：Occ3D-nuScenes数据集不同算法模型的结果对比

通过实验结果可以看出，在具有相似实验条件的情况下，LMPOcc-S和LMPOcc-L算法模型均超过其他算法，实现了最优的检测性能。

为了更加直观的展示本文提出算法模型的有效性，本文将不同算法模型的感知结果进行了可视化，如图4所示。

图4：LMPOcc和DHD算法模型的感知结果可视化

此外，本文提出的LMPOcc算法模型作为一种即插即用的模块可以集成到其他Occupancy算法模型中，图5展示了将LMOP分别集成到FlashOcc以及DHD算法中的实验结果。通过实验结果可以看出，LMOP持续提升了Occupancy算法模型的感知性能。

图5：集成LMOP的不同算法模型实验结果

本文中作者也通过消融实验的方式来验证所提出的不同模块的效果，如图6所示。

图6：消融实验结果汇总

通过实验结果可以看出，本文提出的各类模块均能一致提升算法模型的感知性能。

本文提出的LMPOcc算法模型在全局占用地图的结果如图7所示，在增强局部感知能力的同时，LMPOcc算法模型能够构建大规模的场景占用表示。

图7：全局占用地图可视化结果

图8展示了通过众包协作构建全局占用图的示意图。

图8：基于众包方式构建全局占用示意图

本文提出了一种新颖的3D占用预测框架LMPOcc，该框架有效利用历史信息中的长期记忆先验来提升局部感知性能，同时构建统一的全局占用表示。这使其能够通过众包方式实现城市级占用地图的构建。在Occ3D-nuScenes数据集上的实验结果表明，LMPOcc 在局部占用预测中实现了SOTA的感知性能。

#Passion is all you need

对话上交大穆尧

在ECCV 协同xx智能研讨会上斩获best paper的工作Robotwin由香港大学与上海人工智能实验室、深圳大学、中国科学院自动化研究所、松灵机器人携手共创。

RoboTwin：双臂协同机器人策略学习Benchmark，该旨在通过结合现实世界的遥操作数据与数字孪生的合成数据，为双臂机器人的研究提供强有力的支持。

一作穆尧老师现已入职上海交通大学人工智能研究院担任长聘教轨助理教授，上个月有幸参观了ScaleLab并向穆老师提出了一些有意思的问题，希望能帮助到对xx智能感兴趣的同学和从业者。

（PS：文末附有Robotwin团队出品，xx智能入门级指南）

以下是问题导览：

从博士研究生到老师的心路历程

1、为什么最终选择了加入上交大

2、之前作为博士研究生，现在作为老师，感受上的最大变化

3、人才培养是一个需要长期投入的过程，那在这个长期主义的过程里，你会有怎样的愿景呢？

希望加入团队的成员所具备的特质

1、对于即将加入团队的成员，你最看重哪些特质？

2、针对“激情”与“野心”，具体的表现形式是什么？

针对xx智能的答疑

1、你认为目前xx智能行业面临的主要挑战和瓶颈是什么呢，是模型的泛化性吗？

2、真实数据和仿真数据的使用，目前哪个更有优势？

3、之前大家关注的是sim2real，现在更多是real2sim2real，这个过程经历了怎样的思路变迁？

从博士研究生到老师的心路历程

1、为什么最终选择了加入交大任教？

选择交大的原因主要有两点：首先，交大的平台非常好，有优秀的生源与科研氛围。其次，交大对年轻教师的政策友好，对xx智能这个方向非常重视，给予了我很大的支持。

交大的学生非常优秀，很多同学从大一就开始进入实验室，实验室里的一些同学现在刚大三，就已经在机器人这个赛道积累了丰富的经验了。

这让我看到了之前带过的一些同学的影子，例如陈天行，他加入我的团队之前，简历上除了ACM的竞赛经历外其他都比较空白，而现在已经成长为xx智能领域的Rising Star，可以自己独当一面了。目前他已经入学港大读博，继续研究xx智能。还有陈天行的师弟陈攒鑫，现在在深大，也马上要入学做我的博士了，作为大三学生的他已经有两篇顶会了。

（他们确实很优秀，但除了自身努力，平台与指引者也很重要吧？）

我的观点是，只要自身有不错的编程基础，我的团队就能提供非常好的发展机会，这也是一种互相成就吧。

2、之前作为博士研究生，现在作为老师，你在个人感受上最大的变化是什么？

最大的感受变化是之前完全冲在科研一线，精力更多放在了个人的研究方向上。而自从成为老师后，我的角色发生了很大转变，侧重点也不一样了，人才培养变成了更重要的事情。

但相应的，一线科研对我的要求也提高了，过往我更多专注在自己的一作paper上。现在，学生们通常是一作，而我作为通讯作者，需要将精力分散到多篇文章上。工作重点变成了为每个人提供有效指导，并协调不同研究方向的资源。这让我突然意识到自己已经变成了一个需要承担更多责任的角色。

为了适应这个新角色，我补充了很多新知识，学习了很多新方法和思路。比如，如何吸引优秀人才加入我们的团队，我们就举办了开放日活动，这些都是我从其他地方学来的经验。我特别重视从大一大二就开始培养人才，即使他们一开始可能比较稚嫩，但只要对机器人感兴趣、有热情，经过一两年的培养，我相信他们一定能成长为领袖级的人物。

从一线博士生到教师，虽然仍在搞研究，但在科研方向的把握上会更为重要，并为不同想法提供指导，让身边的人能够一起努力。特别是在团队中，资源有限的情况下，如何让每个人都感到开心，这一点非常重要，也是我正在努力的方向。

3、关于人才培养，我完全认同你的观点。就像做科研一样，人才培养也是一个需要长期投入的过程，那在这个长期主义的过程里，你会有怎样的愿景呢？

我想特别强调一个理念，这也是我在香港的实验室一脉相承传承下来的：尽可能把同学们托举到更高更广阔的舞台上，让大家能够大展拳脚。我们培养本科生和研究生的目的，并不是一定要让他们留在交大或我们的实验室。我们更希望他们能在更广阔的天地里施展才华，为社会做出贡献。

比如我们实验室的一位实习生，从大一开始就在实验室工作，现在大三了，能力已经相当出色。我很想把他推荐到海外的一些顶尖高校，比如“计算机四大”，这样也能帮助我们建立更深层次的合作关系。也是所谓“开枝散叶”的理念。

希望加入团队的成员所具备的特质

1、对于即将加入我们团队的成员，你最看重哪些特质呢？

我最看重的是Passion，比如陈天行就很有激情，团队里的其他同学也都有这种朝气蓬勃的感觉。他们都有强烈的意愿去完成一件事情，既有很强的证明自己的能力，也有坚定的信念，希望做出有影响力的成果。

我希望团队成员既有激情，又有野心。很多同学刚加入团队就会问：“老师，我们课题组要求多少工时？要求多少篇文章才能毕业？”其实我不会在这方面卡得很死，反而更希望看到他们主动追求卓越。

那些既有野心又有热情的同学，往往会主动来询问我的研究愿景。他们会问：“您想做成什么样的事？“ 并告诉我他想做成什么样的事，再看我们是否志同道合，这一点非常重要。只要对于科研的愿景与想法是一致的，哪怕长期目标不同，比如有的同学想创业，有的同学想在学术领域持续发展，将来成为教授，我都是支持的。

此外，还有一个稍微必备的、相当于门槛的东西，就是基础的算法能力和编程能力，这其实是工程能力。如果是一个本科同学，他可能不是学计算机出身的，当然也有很多是相关大类的学生。比如我自己的本科专业也不是计算机，但只要你对机器人感兴趣，我们其实也提供了非常完备的入门级参考教程

2、针对“激情”与“野心”，具体的表现形式是怎样呢？

我认为是主人翁意识，以我自己为例。做博士的时候，我遇到并克服了很多困难。那时，组里没有做机器人的基础，我可以说是在仿真器里白手起家。当仿真器不满足要求，需要做真机时，我勇敢地走出了第一步。

去年，我在中国xx智能大会上受邀做了一个报告。认识了松灵机器人的负责人谢志强。当时他正好在搞一个数据联盟，我就跟他聊起了做机器人这件事。谢总非常支持我，不仅提供了本体，还邀请我去他深圳的公司做实验。这对我来说真是雪中送炭，可以说扶我于危难之际（笑）。

RoboTwin这个项目虽然最终成为了非常有影响力的工作，但起步时非常艰难。那时组里既没有机器人，也没有经费。但我一直积极寻找机会，不怕困难。这种态度让我在遇到问题时，能够很好地解决它们。

而在这个过程支撑我走下去的就是我想强调的主人翁意识。我把自己当成实验室的主人，代表香港大学与谢总谈了很多合作。如果遇到问题，比如没有经费或机器，我不会只是报给导师，然后等待。因为申请经费可能需要三四个月，导师也可能因为忙碌而无法及时处理。所以，我选择主动出击，积极解决问题。

回到实验室现在的情况，我的原则是，一旦选择与产业界的公司合作，就希望建立起很紧密的合作关系。我并不太在意横向项目的金额等问题，但我对合作方的要求是，在我们遇到任何工程问题时，他们必须提供支持。我不希望学生过多去做特别工程化的东西，那这时主人翁意识就很重要了。比如，当机器人在某个地方调试不通时，学生可以直接去我拉好的群里，与工程师交流，寻求帮助，而不是等到组会时才告诉我，我再抽空去与机器人公司沟通，这样效率会很低。

我现在刚入职交大，甚至一些手续都还未完全办妥，但已有不少公司愿意与我合作。这得益于我在博士期间就以主人翁的姿态，主动与各方洽谈合作，甚至为实验室争取到了许多合作机会。因此，我坚信，无论是学术界还是产业界的职业发展，往往源于从一开始就运用主人翁意识，积极主动地调动自身能动性去经营。

针对xx智能的答疑

1、刚才我们主要聊了你从博士生到老师的转变心路历程。现在，让我们把话题转回embodied AI行业。你认为目前行业面临的主要挑战和瓶颈是什么呢，是模型的泛化性吗？

谈到行业挑战和瓶颈，我认为需要从短期和长期两个维度来看。从长期来看，泛化性问题可能需要海量的真实数据和多样化的场景数据来解决。但关于泛化性，这已经是一个被广泛讨论的挑战，所以我不想过多重复。走进千家万户确实对泛化性提出了很高的要求，但目前还没有哪个模型能够真正做到这一点。这是一个共性问题，也是一个长期问题，大家都在积极寻找解决方案，并且普遍认同需要提供更多数据来支持。

而短期内，我们正在着力解决的是执行效率问题。目前的算法尚未达到能够替代人力的水平，因此在这一方面，算法的发展仍有很大的提升空间。

目前很多算法虽然能够成功运行，但就像“老太太”一样不够丝滑。这样的算法部署在生产线上，并不能产生很大的效益，成为了制约行业发展的一个重要因素。

执行效率低下的主要原因在于算法与专家数据之间存在差距。专家数据通常来自遥操作，这相当于让人类去适应机器。即使是最先进的算法，与专家数据相比仍然存在一定差距，而且在模型部署的过程中，这一差距会被进一步放大，这也是机器人操作显得不够流畅的主要原因。

我们目前正在尝试将强化学习融入系统，采用自进化的方式。这个方向其实已经有不少团队在探索，大家都认为这是一个很有前景的领域。从我们的观察来看，已经取得了一些不错的实验结果，能够使动作变得更加利索和高效。

另一个问题是，目前的末端执行器（灵巧手）还不够灵巧。从硬件角度来看，末端执行器的灵活性仍然不足。虽然市面上有众多产品，但无论是哪一款，在可靠性和灵活性方面都还有提升空间。这一领域的发展潜力巨大，值得深入探索。

同时我注意到越来越多的创业公司专注于触觉感知和数据采集这两个方向。这也是一个值得关注的发展趋势。

即使从中长期来看，关于泛化性问题，其实并没有想象中那么难以解决。举个例子，比如王鹤老师团队在仿真环境中使用数百万数据生成的模型，他们的泛化性就做得很好。我们也在进行类似的数据生成工作，包括场景的多样化处理。比如目前我们就在测试不同纹理、大小和高矮的桌子，以及150类物体的丰富3D场景。

虽然泛化性问题被普遍认为是行业挑战，但我们通过不断优化数据生成和场景构建，正在逐步缩小这个差距。

2、真实数据和仿真数据的使用，目前哪个更有优势呢？

关于仿真数据，必须提到生成式AI的迅猛发展，为xx智能的泛化性带来了巨大的机会。这是一种非常有前景的方法，我们可以用低成本的方式生成仿真环境中的各种数据。例如王鹤老师的研究就是基于纯仿真环境生成的数据，虽然现阶段还有很多问题没有解决，但依然能看到未来广阔的发展空间。

举个例子，假设你要建一个真机数采厂，你能采集多少条数据呢？也就那么几个样板间，2000㎡的空间又能放下几间样板间呢？所以，数据生成的方式和效率至关重要。

在真实世界中，样板间的数量有限，但在仿真环境中，我可以轻松创建成千上万种不同的房间场景。得益于视频生成技术的飞速发展，即使这些场景在现实中并不存在，也能在仿真中呈现出极其逼真的效果。这意味着，我可以在仿真中体验到比现实世界更加丰富的场景。

真实数据的好处在于：首先，它完全来源于真实世界；其次，它是机器人实际执行成功的数据。因此，这方面的数据质量非常高。此外，它更接近人类操作的数据。然而，真实数据的缺点也很明显：第一，缺乏多样性，一旦环境变化，数据可能就不再适用；第二，人类操作实际上是在适应机器，受限于硬件条件。

相比之下，仿真数据的优势在于拥有“上帝视角”。我们可以全面了解物体的所有信息，从而基于更优的方法进行规划和生成。从规控的角度来看，这种数据质量更高，更易于机器学习。因此，这两种数据并不冲突，而是非常互补的。

用四个字来总结我的观点，那就是“虚实贯通”，这也是未来的一个主要发展方向。

最终，我们需要开发一套算法，能够将这两种特质的数据完美融合，使其真正发挥作用。这正是我目前正在努力实现的目标。

3、之前大家关注的是sim2real，现在更多是real2sim2real，这个过程经历了怎样的思路变迁呢？

其实原因非常简单，就是仿真做得不够真。大家之前都在仿真里做了很多尝试，但解决得都不尽如人意。得益于新技术包括3D高斯的发展，使得这一切成为可能，之前只用Nerf的时候没有人提real2sim2real这个东西。

但自从3D高斯技术问世以来，大家都在讨论它为什么如此实用，与之前的技术相比，它最大的优势在于实时性。比如，我只需拍摄8张照片，就能对整个场景进行3D高速重建，并且实现实时渲染。在仿真环境中，我们可以做得更加真实，因此，大家自然会选择从sim2real到real2sim2real的路线，以提升逼真度。毕竟，谁愿意在一个虚假的环境中浪费时间呢？大家都明白这一点，所以这种技术演变是非常自然的。

#头部玩家已攻入3大洲10城

中国Robotaxi出海提速

Robotaxi的全球落地进程开始狂飙了。

中国、阿联酋、瑞士、沙特…这遍布全球3大洲10个国家的自动驾驶出行服务，实际都made in China，来自“全球Robotaxi第一股”——文远知行。

中国Robotaxi出海No.1，做得怎么样？

当前各行各业都在关注出海，而在自动驾驶领域最先实现Robotaxi商业出海的公司，是总部位于广州的文远知行。

早在2021年，文远知行就与阿联酋本地企业Bayanat（现名Space42）建立合作，在阿布扎比推出面向公众的Robotaxi服务，覆盖该城最繁华的两个岛：亚斯岛和萨蒂亚特岛。这一商业落地早于国内兴起“中东掘金热”两年多。

在当地安全运营两年后，阿联酋总理亲自把中东第一张自动驾驶牌照颁发给了文远知行，这也是迄今全球唯一一张覆盖全国范围全车型的自动驾驶牌照。

去年9月，文远知行和全球最大的移动出行及配送科技公司Uber达成战略合作，推进文远知行的自动驾驶车辆上线Uber平台，打开了极其广阔的出海渠道。

不到3个月后，文远知行和Uber合作的Robotaxi车队就正式落地阿联酋首都阿布扎比，同步开启商业化运营。这是Uber平台首次在美国以外地区上线自动驾驶车辆，也是美国和中国之外规模最大的商业运营Robotaxi车队。

今年4月，双方将合作模式复制到迪拜，与迪拜道路交通管理局RTA携手，在迪拜的Uber平台上推出文远知行的Robotaxi服务。这标志着文远知行和Uber的合作正式拓展至中东市场第2座城市。

5月5日，文远知行和Uber更是放了个大招，计划未来5年将合作扩展至15座新增城市，覆盖范围包括文远知行深耕已久的中东地区，以及面临人口老龄化和劳动力短缺难题的欧洲市场。

按照每个城市未来5年Robotaxi平均渗透率20%左右计算，单单与Uber新增15座运营城市这一项，文远知行就有望将全球Robotaxi的部署量级拉到数十万以上，服务千万级甚至上亿级终端用户。

这样庞大的落地规模和拓展计划，全球范围内有且仅有文远知行一家。△ 文远知行Robotaxi在阿布扎比

而从广义“Robotaxi出海”层面出发，新加坡、瑞士、法国、西班牙等等，都同文远知行在密切合作，文远知行的多种L4级自动驾驶产品已经出现在这些国家的公开道路场景中。

这里的“广义”既指Robotaxi出海的商业模式，也指和Robotaxi技术“同宗同源”的其他L4级产品形态：Robobus、Robovan、Robosweeper等等，这些产品的底层技术架构、传感器方案等都和Robotaxi高度重合。

技术积累多年的文远知行，能够迅速将L4自动驾驶技术栈和软硬件解决方案，快速复制到多条产品线中，包含低速、高速，有人、无人，乘用、货运…几乎覆盖所有城市生活应用场景，形成了多形态、多产品、多市场的出海布局。

比如，文远知行的无人清扫车已经在新加坡全天候上岗；在巴塞罗那，文远知行的无人小巴在核心城区进行了载客试运营；在中国广州的城区道路上，印着文远知行logo的Robovan正在承担城市自动驾驶货运任务。△文远知行无人扫路机S1在新加坡

据不完全统计，文远知行已经在全球10个国家30个城市开展自动驾驶研发、测试及运营，车队数量超过1,000辆。文远知行还是全球第一家、迄今唯一一家拥有五个国家自动驾驶牌照的科技公司，涵盖中国、美国、阿联酋、新加坡，以及标准极其严苛的法国。

广度之外，Robotaxi出海No.1同样体现在出海的加速度上。

进入2025年，文远知行仅在第一个季度就拿下了四个国际商业项目。

1月9日，文远知行宣布携手瑞士苏黎世机场正式启动自动驾驶小巴在苏黎世机场的测试运营。这是欧洲首个商业落地的机场自动驾驶小巴项目。

1月14日，文远知行拿下又一个瑞士自动驾驶项目，旗下Robotaxi和Robobus将于第二季度率先在瑞士弗尔塔尔地区投入运营，当地居民可通过欧洲知名按需出行服务提供商ioki的App预约乘坐文远知行自动驾驶车辆。

2月28日，文远知行携手雷诺集团、法国自动驾驶运营商beti及保险集团Macif在法国德龙省（Drôme）推出L4级自动驾驶出行服务，这是欧洲首个公开道路前装量产自动驾驶小巴纯无人商业化部署。

3月11日，文远知行宣布与雷诺集团在巴塞罗那市中心开启自动驾驶小巴试乘服务，轻松应对欧洲老城的市中心复杂路况，这是西班牙首个公开道路前装量产自动驾驶试运营服务。

两周后的3月27日，文远知行宣布与法国自动驾驶出行网络运营商beti携手，获得法国纯无人驾驶公开道路测试和运营牌照。

可以看出来，占据了出海先发优势的文远知行，在国际业务拓展上已经呈厚积薄发之态，规模化上量将指日可待。

Robotaxi全球化，为什么是现在？

不止文远知行，中国有名有姓的实力Robotaxi玩家都在出海。

比如小马智行前不久刚刚官宣获得卢森堡Robotaxi测试许可；萝卜快跑也几乎同时官宣落地阿联酋….Waymo也在试水日本市场。

从中国Robotaxi阵营角度看，实力玩家在一到两年前开始布局，今年密集落地，内在驱动因素有3点，其实也是这几年中国L4技术、商业发展的结果。

最基础的技术层面，包括文远知行在内的玩家，已经将Robotaxi的安全体验做得足够好。

内在驱动力的第二点，是产业链。

归功于乘用车L2+辅助驾驶方案的快速普及，中国Robotaxi的成本，迅速从上百万降低到二三十万的水平，达成了商业化的成本前提条件。

比如文远知行去年10月发布的最新一代Robotaxi GXR，技术上具备架构、F-O线控底盘、计算单元、制动等全方位冗余，计算平台可提供超1,300TOPS AI算力，高效满足整车计算需求，同时具备360度无死角感知能力，覆盖高动态、低光照等极端场景。

△ 文远知行全新一代量产Robotaxi GXR

技术和产业共同作用下，2024年实际成为Robotaxi的“落地”元年，各个实力玩家都看到了规模化运营给盈利带来的曙光。

当然还有外部客观因素。

中国Robotaxi出海集中的国家和地区，其传统出行打车费用远远高于中国内地（数据来自各地主管部门）：

△ 印度市场除外

这些地区事实上更渴求“自动驾驶出租车Robotaxi”。

最后，再回到技术的层面，Robotaxi出海也具有“必然性”。

Robotaxi从几百辆到几千甚至几万辆指数级增长，场景数据和AI司机的性能、泛化性互相作用，呈现飞轮态势，能够迅速解决过去Robotaxi在有限场景、固定时段、固定路线下测试的数据瓶颈难题。

算法端需要做到是一个“AI老司机”，硬件端需要找到通用解决方案。而一旦某个玩家从算法到硬件全部打通“任督二脉”，就能拿稳“量产上车”的下半场车票。

所以对于中国的Robotaxi来说，此时做大出海，不仅能够显著提升毛利率，还能撬动更多场景客户，最重要的是能尽快兑现自动驾驶的经济价值。

而且，这一切都是在不往死里“卷”的情况下实现的，海外市场足够大，足以撑起所有的盈利想象空间。

但在L4阵营中，能如愿走上这条发展路径的屈指可数。

Robotaxi全球化落地，为什么文远知行领先了？

文远知行当下5个自动驾驶业务，包含低速、高速，有人、无人，乘用、货运…推行的是L2-L4全产品线：

基于一个自动驾驶通用技术平台WeRide One，覆盖智慧出行、智慧货运、智慧环卫三大场景，形成Robotaxi、Robobus、Robovan、Robosweeper、L2+级辅助驾驶解决方案五大产品线。

文远知行全球团队2000多人，技术人员占比90%，这个规模不算很大，但海内外专利申请数超1000项，发明专利数过半，有限人手覆盖不同产品、不同市场，“通用自动驾驶”的核心优势就体现在了其技术足够通用、足够适配、足够稳定。

公司打造了通用AI司机，在感知识别、决策规划等环节复用核心算法，无论L2-L4、无论乘用货运，基础模型使用相同的数据来训练迭代，后续的仿真测试等环节，也可以用统一的工具。

简单说，文远知行用1种主食材做出了5种不同的菜，好比一块牛肉可以炖、炒、烤、卤、煮，这5道菜面向不同场景、受众，都有人买，都能带来收入。

就比如在文远知行最新的2024年财报中，量产智驾所属的服务类业务，因为周期性项目交割完毕营收有所下滑，但Robotaxi所属的产品类业务营收，则实现了超过60%的增长，同时国际化业务收入的占比也创下了新高。

这就是“通用性自动驾驶”的内涵，也是文远知行Robotaxi快速出海落地不同国家和城市的技术前提。

出海之外，文远知行领先的其实不止Robotaxi。
2024年文远知行的端到端大模型上车，同样基于自研的WeRide One平台构建，被文远应用到了L4级无人驾驶和ADAS辅助驾驶方案中。

ADAS系统方面，文远知行与Tier 1巨头博世合作开发了L2+级辅助驾驶系统，现已进入传统主机厂供应链，在奇瑞高端品牌星途的星纪元ET/ES上车，从立项到交付，仅18个月。

通用AI司机作为技术底座，量产L2+与国际大Tier 1合作绑定，L4攀登技术珠峰，文远知行Robotaxi出海领跑的背后，其实是“通用性自动驾驶”的内涵体现，同时也是所有L4玩家生存、发展的理想模式和路径。

自动驾驶本身是技术创新与商业落地的经典博弈。自从L4赛道诞生以来有太多起起伏伏，留存至今的玩家无一不是在每一次技术、商业剧变中抓住了“关键变量”。

2020年以前，这个“变量”关乎技术，评判L4玩家含金量以及潜力的标准，是接管率是否足够低……

之后的几年间，自动驾驶玩家“绝地反击”的关键，变成了和主机厂合作的“前装量产”。

2025年，通用自动驾驶公司的标准又更新了：出海的数量与质量。

而文远知行，是最早抓住了这个关键变量的玩家，已经成为这场新竞赛的领跑者。

#Co-MTP

同济最新！多时序融合的协同轨迹预测框架~

论文链接：https://arxiv.org/pdf/2502.16589
项目主页：https://xiaomiaozhang.github.io/Co-MTP/

摘要

本文介绍了自动驾驶中基于多时相融合的协同轨迹预测框架。车路协同（V2X）已经成为扩展感知范围和穿透遮挡的理想范式。现有工作着重于单帧协同感知，然而如何利用V2X捕获帧之间的时间线索以促进预测任务（甚至规划任务）仍然有待探索。本文引入了Co-MTP，这是一种自动驾驶中基于多时相融合的通用协同轨迹预测框架，它利用V2X系统完全捕获智能体在历史和未来域中的交互，以便于规划。在历史域中，V2X可以补充单车感知中不完整的历史轨迹，并且设计异构图transformer来学习来自多个智能体的历史特征融合，并且捕获历史交互。此外，预测的目标是支持未来规划。因此，在未来域中，V2X可以提供周围目标的预测结果，进一步扩展图transformer来捕获自车规划和其它车辆意图之间的未来交互，并且获得特定规划行为下的最终未来场景状态。本文在现实世界数据集V2X-Seq上评估了Co-MTP框架，结果表明，Co-MTP实现了最先进的性能，并且历史和未来融合均可以极大地有利于预测。

主要贡献

本文的贡献总结如下：

1）本文提出了Co-MTP，这是一种跨历史和未来域的多时相融合的通用协同轨迹预测框架。Co-MTP是首个通过V2X来完全融合和利用综合时间信息的框架；

2）针对历史域中轨迹不完整的问题，本文设计了一种异构图来学习来自多个智能体的历史特征与transformers的融合；

3）为了便于后续规划，本文进一步将异构图扩展到未来域中，以捕获自车规划与其它车辆行为之间的未来交互；

4）本文在现实世界数据集V2X-Seq上评估了Co-MTP框架。结果证明了其最先进的性能，并且历史和未来融合均可以极大地有利于预测和规划。

论文图片和表格

总结

为了充分探索V2X预测中融合和利用综合时间信息，本文引入了Co-MTP，这是首个跨历史和未来域的多时相融合的通用协同轨迹预测框架。在历史域中，本文开发了一种异构图来学习来自多个智能体的历史特征与多层Transformer的融合，以处理历史域中轨迹不完整的问题。本文预测目标支持自动驾驶规划，并且预测结果应该反映出具有特定规划行为的潜在未来。然而，未来域中唯一的规划信息会使车辆对规划过于自信。因此，本文进一步将异构图扩展到未来域中，以捕获自车规划与来自基础设施预测的其它车辆行为之间的未来交互。最后，本文在现实世界数据集V2X-Seq上评估了Co-MTP框架，结果表明，Co-MTP实现了最先进的性能，并且历史和未来融合均可以极大地有利于预测。此外，本文还研究了V2X的鲁棒性，通过延迟和噪声测试了Co-MTP性能。

查看全文

http://www.xdnf.cn/news/355555.html