当前位置：首页 > web >正文

室外 3DVG 基准

web 2025/8/14 16:01:59

室外 3DVG基准（按重要性与被引用频率）

Talk2Car / Talk2Car-3D (2019 / 衍生) — 对象 referral（驾驶场景）
- 说明：最早的自然语言 → 驾驶场景对象引用数据集之一（原 Talk2Car 是以 nuScenes 为底并提供自然语言命令，评测以 bounding-box 定位为主；后续研究把它转换/扩展为 3D 版本（常见称呼 Talk2Car-3D）以用于 3D grounding 实验）。
- 模态：相机图像 + LiDAR（源自 nuScenes）；语言为自由命令 / referring expressions。
- 可用性：原始 Talk2Car 数据/工具公开（论文与 repo）。
- 参考：Talk2Car paper & repo. (ACL Anthology, GitHub)
CityRefer (NeurIPS 2023) — 城市尺度点云的 3D visual grounding
- 说明：面向 city-scale outdoor point clouds（SensatUrban 数据），提供面向 3D 对象定位 的自然语言描述（约 35k 描述），专门为城市/点云室外 grounding 设计。
- 模态：稠密城市点云（SensatUrban）＋地理信息（OpenStreetMap 对齐的地标标签）。
- 可用性：数据集与基线/代码均公开（NeurIPS 数据集/补充材料、GitHub）。
- 参考：CityRefer（paper + supplementary / project）。(arXiv, NeurIPS Proceedings)
WildRefer (ECCV 2024) — STRefer / LifeRefer（大规模动态/行人场景）
- 说明：提出 3DVG in the wild，包含 STRefer 与 LifeRefer 两个子集，侧重动态/人类中心的室外场景（LiDAR + camera + language），用于 3D 对象定位。
- 模态/特点：多传感器 LiDAR+相机，多帧动态序列，语言为人工标注的 referring expressions；代码/数据仓库可查。
- 可用性：论文与官方实现公开（ECCV 论文 & GitHub）。
- 参考：WildRefer paper & repo. (ECVA, GitHub)
City-scale localization / Text→position（Text2Pos / KITTI360Pose，CVPR2022） — 文本到点云定位（大尺度/格网定位）
- 说明：任务是把自然语言描述映射到城市尺度的位置/格子（coarse→fine localization），而非单个精确 3D box 的实例定位，但它是室外语言↔点云的大尺度基准，常被归入 outdoor 3DVG 的范围（强调位姿/位置而非 box）。
- 数据源：KITTI360 / KITTI360Pose 构建。
- 可用性：论文与实现资源可查（CVPR2022）。
- 参考：Text2Pos / KITTI360Pose. (CVF开放获取, text2pos.github.io)
NuGrounding (2025 preprint) — 多视角/多摄像头的 3DVG（基于 nuScenes）
- 说明：最近工作（预印本）宣称构建了“首个大规模 multi-view 3D visual grounding benchmark for autonomous driving”（NuGrounding），使用 nuScenes 数据并自动/半自动构造 grounding prompt（包含实例定位、multi-view 融合考察）。
- 模态：nuScenes（LiDAR + 多摄像头），instance-level grounding 目标。
- 可用性：预印本已发布（arXiv）；数据/代码通常在作者 repo/补充中公布（需按作者 release 状态检查）。
- 参考：NuGrounding (arXiv preprint). (arXiv)
Talk2LiDAR / Talk2PC / BEVGrounding（2024–2025） — Lidar-centered 3DVG 基准
- 说明：近年若干工作提出 专门面向 LiDAR（点云）或 BEV 的 3DVG 基准（例如文献/会议里出现的 Talk2LiDAR / Talk2PC / BEVGrounding 等），目的在于直接在 LiDAR（或 BEV）上进行自然语言驱动的实例定位（not just 2D→3D）。这些基准通常在论文/补充中给出数据构建细节与基线实验。
- 可用性/引用：相关论文与 openreview / conference 出版物可检索（示例：“Talk2LiDAR / BEVGrounding”）。(OpenReview)
Talk2Radar (2024) — Radar 点云 + 自然语言的 3D referring 数据集
- 说明：把 4D mmWave radar / radar point cloud 与自然语言 referring 表达结合起来，提出了 Talk2Radar 基准（示例规模：数千条 referring prompts），用于在雷达点云上做 3D referring / REC。
- 可用性：论文/预印本公布，数据说明在论文与项目页中给出。
- 参考：Talk2Radar arXiv / paper。(arXiv, ResearchGate)
GroundingOcc / 3D occupancy grounding（2025 preprints / repos）
- 说明：将传统“bounding-box grounding”推广到体素级 occupancy grounding（即自然语言 → voxel 层级的占用/形状），一些工作在 nuScenes 上构建了 GroundingOcc / occupancy-grounding 基准（更细粒度、对几何要求更高）。这是室外 3DVG 的一种延伸任务。
- 可用性：近期预印本与代码仓（如 GroundingOcc GitHub）已发布。(arXiv, Hugging Face)

范围差别：上面列出的数据集包含不同定义的“grounding”——有些是实例级（给定语言返回 3D box / object instance，如 CityRefer、Talk2Car-3D、NuGrounding、WildRefer、Talk2LiDAR），有些是定位/格网/占用级（Text2Pos、GroundingOcc），有些专注于特殊传感器（Talk2Radar）。在做比较实验时要把任务定义（instance localization vs. occupancy vs. coarse localization）事先对齐。(arXiv)
公开性：CityRefer、Talk2Car（原版）与 WildRefer 的代码/数据是可访问的（paper + repo）；新近的 NuGrounding、Talk2LiDAR、Talk2Radar、GroundingOcc 等有的在 arXiv / openreview 给出了预印本与实现链接，但具体数据发布/许可/下载状态请以各作者 repo / paper 的说明为准（部分可能需申请访问或尚属作者 release 阶段）。请在使用前检查各自的 license/下载页面。(arXiv, OpenReview, GitHub)

数据集 / 基准 (year)	任务类型	传感器模态	论文 PDF / 预印本	官方 repo / 下载 / project page
Talk2Car (2019)	instance-level visual grounding (commands → box)	multi-view camera + LiDAR (built on nuScenes)	Paper / info page. (talk2car.github.io)	GitHub / dataset page (Talk2Car). (GitHub, talk2car.github.io)
CityRefer (NeurIPS 2023)	instance-level 3D visual grounding (city-scale)	city-scale photogrammetric point clouds (SensatUrban)	NeurIPS paper PDF / proceedings. (NeurIPS Proceedings, arXiv)	Project / supplementary (paper page includes links). (NeurIPS Proceedings)
WildRefer (ECCV 2024)	instance-level 3D object localization / grounding in large-scale dynamic scenes (STRefer, LifeRefer)	LiDAR + camera (dynamic / human-centric outdoor scenes)	ECCV paper PDF. (ECVA, ACM Digital Library)	ECCV project / poster & code pointer (paper + repo). (eccv.ecva.net, ACM Digital Library)
Text2Pos / KITTI360Pose (CVPR 2022)	localization: text → position (coarse→fine city-scale localization)	LiDAR / city-scale point clouds (KITTI360)	CVPR 2022 paper (Text2Pos). (CVF开放获取, text2pos.github.io)	Project page (Text2Pos site). (text2pos.github.io)
NuGrounding (2025, preprint)	multi-view instance-level 3D grounding for autonomous driving	nuScenes: LiDAR + multi-camera (multi-view)	arXiv preprint / PDF (NuGrounding). (arXiv)	arXiv + authors’ repo (check paper for repo link). (arXiv)
Talk2LiDAR / BEVGrounding (2024–2025, papers / preprints)	instance-level 3D grounding on LiDAR / BEV	LiDAR (point cloud) / sometimes radar fusion; BEV representations	Paper / arXiv describing Talk2LiDAR & BEVGrounding (preprints). (arXiv)	Repo(s) linked from paper / authors (see paper for code links). (arXiv)
Talk2PC / Talk2PC (TPCNet) (2025 preprint)	instance-level LiDAR-centered 3D visual grounding	LiDAR ± radar / multi-sensor point cloud	arXiv preprint (Talk2PC / TPCNet). (arXiv)	Paper + likely repo (见 arXiv / paper 补充)。(arXiv)
Talk2Radar (2024)	instance-level 3D referring on radar point clouds	4D mmWave radar (+可能的相机 / LiDAR配合)	arXiv paper (Talk2Radar). (arXiv)	arXiv page + repo link in paper (authors’ project page). (arXiv)
GroundingOcc / Talk2Occ (GroundingOcc) (2025 preprint)	occupancy-level 3D grounding (voxel/occupancy grounding)	nuScenes (multi-sensor) → voxel occupancy + language	arXiv preprint (GroundingOcc / GroundingOcc paper PDF). (arXiv)	GitHub: authors report dataset/repo at `https://github.com/RONINGOD/GroundingOcc` . (arXiv, alphaXiv)

定义差异：表中包含三类不同目标 —— instance-level（给定语言返回某个物体的 3D box / instance）、localization/position（把语言映射到城市尺度的位置格子或坐标）、和occupancy（把语言映射到体素/占用网格）。在比较模型/结果时务必对齐任务定义。(CVF开放获取, arXiv)
数据来源 / 依赖：一些基准是直接建立在已有自动驾驶数据集之上（例如 Talk2Car 建立在 nuScenes 之上；NuGrounding / GroundingOcc / Talk2Radar / 多个 occupancy 型基准也以 nuScenes 为底），因此使用它们通常需要先获取相应的原始底层数据（nuScenes、KITTI360、SensatUrban 等）并遵守这些数据集的许可。请在论文/项目页查看"如何下载 / license"说明。(talk2car.github.io, nuscenes.org)
release 状态：CityRefer、Talk2Car、WildRefer、Text2Pos（KITTI360Pose）是明确已发布且可访问的数据集/基准。NuGrounding、Talk2LiDAR、Talk2PC、Talk2Radar、GroundingOcc 等包含最近（2023–2025）发表或预印本工作；大多数作者会在论文或补充中给出 repo/下载链接，但某些资源可能为预印本阶段（请以对应 GitHub / project page 为准）。我在表中把可用的 repo / arXiv / project page 都附上了来源链接。(NeurIPS Proceedings, ECVA, arXiv)

查看全文

http://www.xdnf.cn/news/17869.html