当前位置: 首页 > news >正文

论文略读: CITYANCHOR: CITY-SCALE 3D VISUAL GROUNDING WITH MULTI-MODALITY LLMS

ICLR 2025 6668

本文提出了一种名为 CityAnchor 的三维视觉指定位方法,用于在城市级点云(city-scale point cloud)中定位城市物体。近年来多视图重建技术的发展使得构建大规模城市点云成为可能,但如何在如此大尺度的点云中进行视觉指定位仍是一个开放问题。

现有的 3D 视觉指定位系统主要集中于图像或小尺度点云中的目标定位,这种方法在精度和效率上都难以扩展至城市级点云的应用场景。

为解决这一挑战,本文提出了一种多模态大语言模型(LLM)驱动的两阶段方法,包括:

  1. 粗定位阶段(Coarse Localization):根据文本描述,在点云投影后的二维地图上定位可能的区域;

  2. 细粒度匹配阶段(Fine-Grained Matching):在这些候选区域中进一步精确匹配出与文本描述最相符的目标对象。

我们在 CityRefer 数据集以及我们新构建并标注的合成数据集上进行了实验,结果表明,CityAnchor 能够在城市级三维点云中实现准确的 3D 视觉指定位,验证了方法的有效性与可扩展性。

http://www.xdnf.cn/news/1037485.html

相关文章:

  • 容器里有10升油,现在只有两个分别能装3升和7升油的瓶子,需要将10 升油等分成2 个5 升油。程序输出分油次数最少的详细操作过程。
  • 【leetcode】78. 子集
  • 2.2 状态空间表达式的解
  • 初探Qt信号与槽机制
  • 21 - GAM模块
  • 破壁虚实的情感科技革命:元晟定义AI陪伴机器人个性化新纪元
  • SpringBoot 自动化部署实战:从环境搭建到 CI/CD 全流程
  • vulnyx Diff3r3ntS3c writeup
  • CLONE:用于长距离任务的闭环全身人形机器人遥操作
  • C++之模板进阶
  • 多线程下 到底是事务内部开启锁 还是先加锁再开启事务?
  • 《人工智能时代与人类价值》读书简要笔记
  • [CVPR 2025] DeformCL:基于可变形中心线的3D血管提取新范式
  • Docker全平台安装指南:从零到一构建容器化环境(满级版)
  • GDI+ 中与GDI32取图形区域函数对比CreateEllipticRgn/CreatePolygonRgn
  • g++ a.cpp -o a ‘pkg-config --cflags --libs opencv4‘/usr/bin/ld: 找不到 没有那个文件或目录
  • [智能客服project] AI提示词配置 | 主协调器 | 闲鱼协议工具
  • PX4无人机|MID360使用FAST_LIO,实现自主定位及定点——PX4无人机配置流程(五)
  • Vue Methods 实现原理详解
  • 【数据集成与ETL 04】dbt实战指南:现代化数据转换与SQL代码管理最佳实践
  • 一个前端正则校验引发的问题
  • 马上行计划管理后端架构
  • 深度分析Javascript中的Promise
  • 动态多目标进化算法:基于迁移学习的动态多目标遗传算法Tr-NSGA-II求解CEC2015,提供完整MATLAB代码
  • python基础与数据类型
  • C# 枚 举(枚举)
  • Python Day51
  • pyspark非安装使用graphframes
  • PHP+mysql雪里开轻量级报修系统 V1.0Beta
  • Laravel 从版本 5 到 12 每个版本都引入了一些新的特性、改进和弃用的功能