当前位置: 首页 > java >正文

Visual acoustic Field,360+X论文解读

目录

一、Visual acoustic Field

1、概述

2、方法

2.1 视觉声音对数据集

2.2 视觉位置预测声音

2.3 根据声音进行空间定位

二、360+X

1、概述

2、方法


一、Visual acoustic Field

1、概述

        motivation:由于视觉-声音跨模态问题上,音频一般与整张2D图像或视频配对,无法确定具体物体的声音,也同时缺乏对物体材质、空间位置与声音关联的3D建模。

        下图为以往的视听数据信息,缺乏场景级,真实交互,3D建模数据。

        contribution:提出了首个3D场景级视听数据集,场景多视角图像,带标记的敲击图像,敲击声音。统一框架实现对给定位置的声音生成,或者给定声音输出声源位置。I

2、方法

2.1 视觉声音对数据集

数据采集

        设备:只需手机录制多视角图像和敲击声音。

        图像信息I:视频抽帧300张图像,覆盖全视角,作为数据集。

        敲击图像集I^h:在物体表面贴标记点(贴纸),拍摄标记位置并同步录制敲击声

        声音:统一用谱门限法去噪,并截取0.5s有效敲击音频,RMS归一化消除力度差异影响。

数据处理

        为了防止单独对图像信息I运行COLMAP导致坐标系不一致,所以将图像信息与敲击图像合并到一个集合并输入到COLMAP上,来估计所有相机位姿包括图像信息的和敲击图像集的位姿P,P^h。(他这里实验证明,敲击图像集上有一些尺寸小的标记点,对COLMAP的位姿估计影响微乎其微)

        利用OWL-v2来检测I^h上的像素坐标(x_n^h,y_n^h),并通过3DGS预测标记点处深度d_n。最后利用针孔相机模型计算相机坐标系下3D敲击坐标(i_n,j_n,k_n)

        之后,为了在重建无标记的3D场景,所以只用图像信息I来重建,再用P^h为视角,重新渲染纯净敲击图像集\underline{I^h}

        最终数据集为多视角图像I,纯净的重渲染无标记敲击图像\underline{I^h},敲击声音,3D敲击位置坐标。

数据集类别

        15个场景,包括室内室外场景,并敲击了100多个物体,约2000个视听对。

2.2 视觉位置预测声音

        这一部分流程是,3D坐标->定位一个可见敲击视角->feature3DGS渲染特征图->SAM多尺度分割特征图->audioclip对齐到声音特征上,作为条件信息->融合条件,生成相应的声音。

        具体来说,(1)输入敲击点3D坐标,先通过计算3D坐标与每个数据集中光心的距离与夹角,筛选可见的视角,并有限选择重渲染后的敲击图像视角\underline{I^h}(2)用Feature 3DGS渲染该视角下的特征图。(3)根据特征图用SAM模型实现多层次的特征分割,得到三个尺度的掩码信息。(4)利用AudioCLiP视觉编码器映射为能够与音频对齐的特征向量。(5)将对齐的特征向量作为条件,融合到Stable Audio中来生成声音输出。

        当然Stable Audio中没有这么多敲击声音,所以训练中对于以敲击声音为条件的数据集微调了250步。训练中用生成音频与GT音频的频谱损失作为监督。

2.3 根据声音进行空间定位

        这一部分你可以理解为langsplat(开放词汇语义查询)的改进,他就是一个开放音频的语义查询,只不过用AudioCLIP替换文本编码器,重新生成每一个场景的语义3DGS。然后利用余弦相似度来进行语义查询。

二、360+X

1、概述

        motivation:多数场景理解数据集(如UCF101、Kinetics)仅覆盖​​单一视角​​(如第一人称或固定视角),缺乏人类感知世界的多视角协同机制。另外当前的全景数据集(如KITTI-360)忽略音频与空间信息,而视听数据集(如AudioSet)缺乏方位音频与多视角对齐。

        contribution:提出了首个全景多模态数据集360+X,包括全景,第三人称,双目、单目第一人称多视角。视频,多通道音频,双耳延时方位信息,GPS定位,场景文本描述多模态。模拟人类​​真实环境感知方式​​,通过跨模态互补提升场景理解全面性

2、方法

数据采集

  • 全景视角​​:Insta360 One X2相机,双鱼眼镜头生成5760×2880分辨率视频,四麦克风采集方位音频

  • ​第一人称视角​​:Snapchat Spectacles 3眼镜,采集2432×1216分辨率双目视频

  • 视频处理:鱼眼镜头原始数据→球面全景→等矩形投影→基于光流运动检测的前景区域提取

  • 音频处理​​:通过​​双耳时间差(ITD)​​ 计算声源方位,与360°视频空间对齐

  • 时空对齐​​:设备近距离放置避免遮挡,时间戳同步多模态数据

    

场景标注

        覆盖28类场景(15室内+13室外),基于Places Database和语言模型筛选。采集于多国真实环境(中国、日本、欧洲等),包含不同天气/光照条件

       

数据对比

应用方向

        无死角环境建模,动态物体追踪

        声音检索对应场景视频(辅助定位),文本定位视频        

        感觉用不太上。。

        

参考论文:

[2404.00989] 360+x: A Panoptic Multi-modal Scene Understanding Dataset

[2503.24270] Visual Acoustic Fields

http://www.xdnf.cn/news/20482.html

相关文章:

  • AI(学习笔记第七课) 使用langchain进行文本切割
  • 面试开发工程师需要做哪些准备
  • FMC与FSMC
  • 基于扰动观察法(PO)的光伏最大跟踪策略Simulink
  • 源码部署mysql8.0.40
  • 如何客观判断自身选择的方法可持续成长和收获?
  • RPC 和 HTTP 的区别
  • 网络中的PAT:小端口映射的大能量
  • 4.存储虚拟化
  • Linux系统检测硬盘失败解救方法
  • 计算机组成原理:计算机硬件的基本组成
  • 零基础学习数据采集与监视控制系统SCADA
  • 【C++】vector 深度剖析及模拟实现
  • Jmeter性能测试
  • 【读文献】Buffer和level shift的偏置电压设计
  • Day21 保护操作系统
  • 【01背包问题变体】P1282 多米诺骨牌
  • MySQL集群高可用架构之组复制 (MGR)
  • 校园洒水车cad+三维图+设计说书
  • 金属也有“记忆力”?—聊聊二合一玛哈特矫平机如何“消除”金属的记忆
  • 修复存在坏块或05、C4、C5 S.M.A.R.T错误的硬盘
  • Spring Cloud Alibaba快速入门02-Nacos
  • FRCNet
  • Fab资源快速导入UE
  • Shell 脚本实现系统监控与告警
  • Spring Boot中MyBatis的定义与使用
  • IOC为什么交由spring容器管理?
  • 操作系统研发工作心得体会 - 于复杂性中构建秩序
  • 每日一题(2)
  • MySQL学习记录-索引