室外 3DVG 基准
室外 3DVG基准(按重要性与被引用频率)
-
Talk2Car / Talk2Car-3D (2019 / 衍生) — 对象 referral(驾驶场景)
- 说明:最早的自然语言 → 驾驶场景对象引用数据集之一(原 Talk2Car 是以 nuScenes 为底并提供自然语言命令,评测以 bounding-box 定位为主;后续研究把它转换/扩展为 3D 版本(常见称呼 Talk2Car-3D)以用于 3D grounding 实验)。
- 模态:相机图像 + LiDAR(源自 nuScenes);语言为自由命令 / referring expressions。
- 可用性:原始 Talk2Car 数据/工具公开(论文与 repo)。
- 参考:Talk2Car paper & repo. (ACL Anthology, GitHub)
-
CityRefer (NeurIPS 2023) — 城市尺度点云的 3D visual grounding
- 说明:面向 city-scale outdoor point clouds(SensatUrban 数据),提供面向 3D 对象定位 的自然语言描述(约 35k 描述),专门为城市/点云室外 grounding 设计。
- 模态:稠密城市点云(SensatUrban)+地理信息(OpenStreetMap 对齐的地标标签)。
- 可用性:数据集与基线/代码均公开(NeurIPS 数据集/补充材料、GitHub)。
- 参考:CityRefer(paper + supplementary / project)。(arXiv, NeurIPS Proceedings)
-
WildRefer (ECCV 2024) — STRefer / LifeRefer(大规模动态/行人场景)
- 说明:提出 3DVG in the wild,包含 STRefer 与 LifeRefer 两个子集,侧重动态/人类中心的室外场景(LiDAR + camera + language),用于 3D 对象定位。
- 模态/特点:多传感器 LiDAR+相机,多帧动态序列,语言为人工标注的 referring expressions;代码/数据仓库可查。
- 可用性:论文与官方实现公开(ECCV 论文 & GitHub)。
- 参考:WildRefer paper & repo. (ECVA, GitHub)
-
City-scale localization / Text→position(Text2Pos / KITTI360Pose,CVPR2022) — 文本到点云定位(大尺度/格网定位)
- 说明:任务是把自然语言描述映射到城市尺度的位置/格子(coarse→fine localization),而非单个精确 3D box 的实例定位,但它是室外语言↔点云的大尺度基准,常被归入 outdoor 3DVG 的范围(强调位姿/位置而非 box)。
- 数据源:KITTI360 / KITTI360Pose 构建。
- 可用性:论文与实现资源可查(CVPR2022)。
- 参考:Text2Pos / KITTI360Pose. (CVF开放获取, text2pos.github.io)
-
NuGrounding (2025 preprint) — 多视角/多摄像头的 3DVG(基于 nuScenes)
- 说明:最近工作(预印本)宣称构建了“首个大规模 multi-view 3D visual grounding benchmark for autonomous driving”(NuGrounding),使用 nuScenes 数据并自动/半自动构造 grounding prompt(包含实例定位、multi-view 融合考察)。
- 模态:nuScenes(LiDAR + 多摄像头),instance-level grounding 目标。
- 可用性:预印本已发布(arXiv);数据/代码通常在作者 repo/补充中公布(需按作者 release 状态检查)。
- 参考:NuGrounding (arXiv preprint). (arXiv)
-
Talk2LiDAR / Talk2PC / BEVGrounding(2024–2025) — Lidar-centered 3DVG 基准
- 说明:近年若干工作提出 专门面向 LiDAR(点云)或 BEV 的 3DVG 基准(例如文献/会议里出现的 Talk2LiDAR / Talk2PC / BEVGrounding 等),目的在于直接在 LiDAR(或 BEV)上进行自然语言驱动的实例定位(not just 2D→3D)。这些基准通常在论文/补充中给出数据构建细节与基线实验。
- 可用性/引用:相关论文与 openreview / conference 出版物可检索(示例:“Talk2LiDAR / BEVGrounding”)。(OpenReview)
-
Talk2Radar (2024) — Radar 点云 + 自然语言 的 3D referring 数据集
- 说明:把 4D mmWave radar / radar point cloud 与自然语言 referring 表达结合起来,提出了 Talk2Radar 基准(示例规模:数千条 referring prompts),用于在雷达点云上做 3D referring / REC。
- 可用性:论文/预印本公布,数据说明在论文与项目页中给出。
- 参考:Talk2Radar arXiv / paper。(arXiv, ResearchGate)
-
GroundingOcc / 3D occupancy grounding(2025 preprints / repos)
- 说明:将传统“bounding-box grounding”推广到体素级 occupancy grounding(即自然语言 → voxel 层级的占用/形状),一些工作在 nuScenes 上构建了 GroundingOcc / occupancy-grounding 基准(更细粒度、对几何要求更高)。这是室外 3DVG 的一种延伸任务。
- 可用性:近期预印本与代码仓(如 GroundingOcc GitHub)已发布。(arXiv, Hugging Face)
- 范围差别:上面列出的数据集包含不同定义的“grounding”——有些是实例级(给定语言返回 3D box / object instance,如 CityRefer、Talk2Car-3D、NuGrounding、WildRefer、Talk2LiDAR),有些是定位/格网/占用级(Text2Pos、GroundingOcc),有些专注于特殊传感器(Talk2Radar)。在做比较实验时要把任务定义(instance localization vs. occupancy vs. coarse localization)事先对齐。(arXiv)
- 公开性:CityRefer、Talk2Car(原版)与 WildRefer 的代码/数据是可访问的(paper + repo);新近的 NuGrounding、Talk2LiDAR、Talk2Radar、GroundingOcc 等有的在 arXiv / openreview 给出了预印本与实现链接,但具体数据发布/许可/下载状态请以各作者 repo / paper 的说明为准(部分可能需申请访问或尚属作者 release 阶段)。请在使用前检查各自的 license/下载页面。(arXiv, OpenReview, GitHub)
数据集 / 基准 (year) | 任务类型 | 传感器模态 | 论文 PDF / 预印本 | 官方 repo / 下载 / project page |
---|---|---|---|---|
Talk2Car (2019) | instance-level visual grounding (commands → box) | multi-view camera + LiDAR (built on nuScenes) | Paper / info page. (talk2car.github.io) | GitHub / dataset page (Talk2Car). (GitHub, talk2car.github.io) |
CityRefer (NeurIPS 2023) | instance-level 3D visual grounding (city-scale) | city-scale photogrammetric point clouds (SensatUrban) | NeurIPS paper PDF / proceedings. (NeurIPS Proceedings, arXiv) | Project / supplementary (paper page includes links). (NeurIPS Proceedings) |
WildRefer (ECCV 2024) | instance-level 3D object localization / grounding in large-scale dynamic scenes (STRefer, LifeRefer) | LiDAR + camera (dynamic / human-centric outdoor scenes) | ECCV paper PDF. (ECVA, ACM Digital Library) | ECCV project / poster & code pointer (paper + repo). (eccv.ecva.net, ACM Digital Library) |
Text2Pos / KITTI360Pose (CVPR 2022) | localization: text → position (coarse→fine city-scale localization) | LiDAR / city-scale point clouds (KITTI360) | CVPR 2022 paper (Text2Pos). (CVF开放获取, text2pos.github.io) | Project page (Text2Pos site). (text2pos.github.io) |
NuGrounding (2025, preprint) | multi-view instance-level 3D grounding for autonomous driving | nuScenes: LiDAR + multi-camera (multi-view) | arXiv preprint / PDF (NuGrounding). (arXiv) | arXiv + authors’ repo (check paper for repo link). (arXiv) |
Talk2LiDAR / BEVGrounding (2024–2025, papers / preprints) | instance-level 3D grounding on LiDAR / BEV | LiDAR (point cloud) / sometimes radar fusion; BEV representations | Paper / arXiv describing Talk2LiDAR & BEVGrounding (preprints). (arXiv) | Repo(s) linked from paper / authors (see paper for code links). (arXiv) |
Talk2PC / Talk2PC (TPCNet) (2025 preprint) | instance-level LiDAR-centered 3D visual grounding | LiDAR ± radar / multi-sensor point cloud | arXiv preprint (Talk2PC / TPCNet). (arXiv) | Paper + likely repo (见 arXiv / paper 补充)。(arXiv) |
Talk2Radar (2024) | instance-level 3D referring on radar point clouds | 4D mmWave radar (+可能的相机 / LiDAR配合) | arXiv paper (Talk2Radar). (arXiv) | arXiv page + repo link in paper (authors’ project page). (arXiv) |
GroundingOcc / Talk2Occ (GroundingOcc) (2025 preprint) | occupancy-level 3D grounding (voxel/occupancy grounding) | nuScenes (multi-sensor) → voxel occupancy + language | arXiv preprint (GroundingOcc / GroundingOcc paper PDF). (arXiv) | GitHub: authors report dataset/repo at https://github.com/RONINGOD/GroundingOcc . (arXiv, alphaXiv) |
- 定义差异:表中包含三类不同目标 —— instance-level(给定语言返回某个物体的 3D box / instance)、localization/position(把语言映射到城市尺度的位置格子或坐标)、和occupancy(把语言映射到体素/占用网格)。在比较模型/结果时务必对齐任务定义。(CVF开放获取, arXiv)
- 数据来源 / 依赖:一些基准是直接建立在已有自动驾驶数据集之上(例如 Talk2Car 建立在 nuScenes 之上;NuGrounding / GroundingOcc / Talk2Radar / 多个 occupancy 型基准也以 nuScenes 为底),因此使用它们通常需要先获取相应的原始底层数据(nuScenes、KITTI360、SensatUrban 等)并遵守这些数据集的许可。请在论文/项目页查看"如何下载 / license"说明。(talk2car.github.io, nuscenes.org)
- release 状态:CityRefer、Talk2Car、WildRefer、Text2Pos(KITTI360Pose)是明确已发布且可访问的数据集/基准。NuGrounding、Talk2LiDAR、Talk2PC、Talk2Radar、GroundingOcc 等包含最近(2023–2025)发表或预印本工作;大多数作者会在论文或补充中给出 repo/下载链接,但某些资源可能为预印本阶段(请以对应 GitHub / project page 为准)。我在表中把可用的 repo / arXiv / project page 都附上了来源链接。(NeurIPS Proceedings, ECVA, arXiv)