当前位置: 首页 > backend >正文

3D数据:从数据采集到数据表示,再到数据应用

3D扫描场景 (3D Scanned Scene) 是什么?

我们想把一个真实的房间(比如你的书房)完整地“搬”进电脑里,让电脑知道这个房间的三维结构。3D扫描就是实现这个过程的技术。

  • 定义:3D扫描场景是使用特殊传感器(如LiDAR激光雷达RGB-D深度相机)对真实世界环境进行测量,从而捕捉其空间几何信息后生成的数字三维模型。
  • 过程
    1. 传感器会发射光(通常是人眼看不见的激光或红外光)。
    2. 光束射到物体表面(如墙壁、桌子、椅子)后会反射回来。
    3. 传感器通过测量光束返回的时间或模式,精确计算出传感器到物体表面上每一点的距离。
    4. 通过成千上万次的测量,就能获得场景中大量物体的表面点三维坐标 (X, Y, Z)。
  • 实例:苹果新款iPhone和iPad Pro上的“激光雷达扫描仪”就是一个微型的LiDAR,可以用来创建房间的3D扫描场景。自动驾驶汽车顶部的旋转装置也是一个LiDAR,它在实时扫描周围的道路、车辆和行人。

点云 (Point Cloud) 和 3D网格 (3D Mesh)

3D扫描完成后,我们得到了一大堆原始数据点。如何用这些点在电脑里把场景“画”出来呢?这时就需要两种主流的表示形式:点云3D网格

点云 (Point Cloud)
  • 定义:点云是三维空间中一系列点的集合。它是3D扫描后最原始、最直接的数据表示。
  • 形式:每个点至少包含三维坐标 (X, Y, Z)。通常还会附带其他信息,比如:
    • 颜色 (R, G, B):如果用RGB-D相机扫描,每个点还能记录下颜色,组合起来就像一张立体的、由无数小色点组成的照片。
    • 强度 (Intensity):激光雷达反射回来的信号强度,可以反映物体表面的材质。
  • 视觉想象:您可以把点云想象成一团“数字尘埃”或一幅三维的“点彩画”。每个尘埃颗粒或颜色点都有精确的空间位置,但它们之间是独立、离散的,没有明确的连接关系。
  • 什么叫稀疏点云 (Sparse Point Cloud)?
    • “稀疏”是相对于“稠密”而言的。稀疏点云意味着在单位空间体积内,点的数量较少,点与点之间的距离较大。这可能导致物体表面看起来不完整,有空洞。
    • 成因:可能是扫描设备精度不高、扫描速度过快,或者被扫描物体表面反光/吸光特性导致。
    • 论文关联:论文提到 ScanRefer 处理的是稀疏点云 ,意味着它所面对的挑战是在一个可能不完整、有缺失的原始数据中直接定位物体。

稠密点云,能清晰看出物体轮廓。稀疏点云,点与点之间有明显间隙。

3D网格 (3D Mesh)
  • 定义:3D网格是一种通过顶点(Vertices)边(Edges)面(Faces) 来定义物体三维形状的表示方法。它不仅仅是点的集合,更定义了点之间的拓扑连接关系,构成了物体的“表面”。
  • 形式
    • 顶点:就是点云中的点。
    • :连接两个顶点的线段。
    • :由三条或更多边闭合构成的多边形(最常见的是三角形)。
  • 视觉想象:如果说点云是“骨架”,那么网格就是给骨架蒙上了一层“皮肤”。这层皮肤是连续的,定义了物体的内外
  • 与点云的关系3D网格通常是在点云的基础上后处理生成的。算法会分析点云中点的邻近关系,智能地将它们连接起来,形成一个个三角面,最终构成完整的物体表面。
  • 实例:我们玩的3D游戏中的角色、场景,以及电影中的CGI特效物体,几乎都是用3D网格来表示的,因为网格可以方便地进行贴图、渲染和变形。

通过连接点云的点生成3D网格,形成连续的表面

任务设定和标注侧重点上有所不同

这是理解 ScanReferNr3D 这两个数据集核心差异的关键。虽然它们都源自相同的3D扫描场景(ScanNet),但它们给AI模型提出的“考题”和提供的“参考答案”是完全不同的。

ScanRefer 的情况
  • 任务设定 (Task Setting):AI模型接收的是一个相对原始的、稀疏的点云场景和一句自然语言描述(例如:“请找到那个红色的椅子”)。模型的任务是,必须直接在这个离散、可能不完整的点云中,找出并分割出哪些点属于“红色的椅子”。
  • 标注侧重点 (Annotation Focus):它的标注是将一句话的描述直接关联到点云中的一个或一组点。重点在于 “从无到有” 的定位和分割能力。
  • 打个比方:这就像给一个侦探一张模糊的广场监控录像(稀疏点云),然后告诉他:“找到穿风衣的那个男人”。侦探需要自己从模糊的人群中辨认并圈出目标。
Nr3D 的情况
  • 任务设定 (Task Setting):在Nr3D中,场景数据已经被预处理过了。场景里所有的物体(比如每把椅子、每张桌子)都已经被完美地识别出来,并用一个精确的3D边界框 (Bounding Box) 给框起来了。AI模型接收的是这个处理好的场景、所有物体的边界框列表,以及一句自然语言描述。它的任务是,在这些已有的边界框中,选出哪个框对应描述中的物体。
  • 标注侧重点 (Annotation Focus):论文明确提到,Nr3D为所有物体提供了真实的3D边界框 。它的标注重点是将一句话的描述关联到一个已存在的物体ID或边界框上。它考验的是在多个候选对象中的 “指代消歧” 能力。
  • 打个比方:这就像给一个安保人员一张广场照片,照片上每个人的轮廓都已经被用不同颜色的框完美地圈出并编了号(预处理好的边界框)。然后告诉他:“找到穿风衣的那个男人”。安保人员不需要自己去辨认轮廓,他只需要回答:“目标是5号框”。
特性3D点云 (Point Cloud)3D网格 (3D Mesh)
构成离散的三维点集合由顶点、边、面构成的连续表面
关系点与点之间独立点(顶点)之间通过边和面连接
来源3D扫描的直接产物通常由点云后处理生成
形态数字尘埃、三维点彩画数字雕塑、蒙皮骨架
应用原始场景分析、自动驾驶感知游戏、CGI、可视化、仿真
数据集ScanReferNr3D
输入数据原始、稀疏的点云经过预处理、所有物体都有边界框的场景
AI任务分割定位:从点云中找出属于目标的点指代消歧:从已有的物体框中选出正确的一个
核心挑战在不完美的原始数据中进行精细感知理解语言描述,区分相似的候选物体
http://www.xdnf.cn/news/15508.html

相关文章:

  • 本地电脑安装Dify|内网穿透到公网
  • 【Qt】插件机制详解:从原理到实战
  • 【科研绘图系列】R语言绘制中国地图和散点图以及柱状图
  • ES2023 新特性解析_数组与对象的现代化操作指南
  • 一文厘清楼宇自控系统架构:包含哪些关键子系统及其作用
  • 部署项目将dll放到system32?不可取
  • 基于LAMP环境的校园论坛项目
  • 阿里开源项目 XRender:全面解析与核心工具分类介绍
  • Spring面试核心知识点整理
  • iOS高级开发工程师面试——Swift
  • 驭码 CodeRider 产品介绍
  • AR眼镜颠覆医疗:精准手术零误差
  • 再见吧,Windows自带记事本,这个轻量级文本编辑器太香了
  • DeepSWE:通过强化学习扩展训练开源编码智能体
  • PySpark 常用算子详解
  • kotlin的自学笔记1
  • King’s LIMS:实验室数字化转型的智能高效之选
  • 19.如何将 Python 字符串转换为 Slug
  • 极致cms多语言建站|设置主站默认语言与设置后台固定语言为中文
  • 手机当路由,连接机器人和电脑
  • Postman + Newman + Jenkins 接口自动化测试
  • 说下对mysql MVCC的理解
  • DNS的含义以及例子
  • 传输协议和消息队列
  • Claude 背后金主亚马逊亲自下场,重磅发布 AI 编程工具 Kiro 现已开启免费试用
  • 面向医疗AI场景的H20显卡算力组网方案
  • 正则表达式使用示例
  • C++20 协程参考手册详解 - 源自 cppreference.com
  • 暑假Python基础整理 --异常处理及程序调试
  • 从 0 到 1 掌握 自研企业级分布式 ID 发号器