当前位置：首页 > web >正文

阿里通义实验室突破空间音频新纪元！OmniAudio让360°全景视频“声”临其境

web 2025/7/20 0:40:20

在虚拟现实和沉浸式娱乐快速发展的今天，视觉体验已经远远不够，声音的沉浸感成为打动用户的关键。然而，传统的视频配音技术往往停留在“平面”的音频层面，难以提供真正的空间感。阿里巴巴通义实验室（Qwen Lab）旗下的语音团队最近取得了一个重大突破 —— OmniAudio 技术，能够直接从360°视频中生成空间音频（FOA），真正实现了“所见即所听”，大幅提升虚拟现实中的沉浸感。

为什么空间音频如此重要？

想象一下你戴着VR头显，站在一个繁忙的城市广场。如果你只听到“立体声”，你可能只能感受到声音的左右方向；但如果你听到一个小贩从你后方推车经过、前方的街头艺人正在唱歌、右上方的钟楼敲响，你的身体会自然转向声音来源——这正是**空间音频（Spatial Audio）**带来的沉浸感。

**FOA（First-order Ambisonics）**是一种主流的空间音频格式，它用4个声道（W, X, Y, Z）来描述声音的位置和方向。简单来说，如果你把听觉比作摄影，这种格式就像是“全景相机”，可以捕捉整个空间的声音场景，而不仅仅是某一个角度。

现有技术的痛点：角度太“死板”

虽然空间音频的技术已存在一段时间，但目前很多视频生成音频的方法都存在明显的缺陷：

只处理固定视角的视频，无法真正体现“环绕”音效；
生成的是“普通”音频，缺乏声音方向感；
忽视了360°视频本身蕴含的丰富视觉线索。

而随着360°相机的普及和VR内容的兴起，观众越来越期待音画一致的沉浸体验——而这正是OmniAudio所要解决的难题。

Qwen Lab 的解法：360V2SA 任务 + Sphere360 数据集

为了解决这个痛点，研究团队提出了一个全新的任务定义：360V2SA（360-degree Video to Spatial Audio）。意思就是：让360°视频配上真正匹配其空间结构的音频。

但这里面有一个大难题——数据匮乏。

训练AI模型需要大量的视频+空间音频配对数据，而现实中360°视频和FOA音频的组合极其稀缺。为此，团队构建了一个超大规模数据集 Sphere360：

包含 103,000+ 真实视频片段；
覆盖 288类音频事件（如掌声、引擎声、鸟叫等）；
总时长达到 288小时；
所有数据都经过严格清洗和对齐，确保“看得见”的画面与“听得见”的声音严格对应。

OmniAudio 是如何学习“空间感”的？

OmniAudio 的训练分为两个阶段，可以类比为“先学基础，再练精细”：

✅ 阶段一：自学成才（Self-Supervised）

团队利用海量的普通立体声数据，先“伪造”出假FOA（称为“伪FOA”），让模型通过一种叫“流匹配（flow-matching）”的方法，自己摸索声音的时间结构和空间规律。

类比一下：就像你用模糊地图自学城市布局，虽然不精确，但能掌握大致方位和路线感。

为了让模型更强健，团队还故意“打码”音频片段（即随机遮住部分时间段），让模型学会“脑补”缺失的信息。这一步帮助它打下了很好的“声音空间感”基础。

✅ 阶段二：精雕细琢（Supervised Fine-tuning）

接着，团队拿出真实的FOA音频数据，结合视频的“双分支视觉编码器”（可以同时提取场景信息和运动信息），进一步精细训练模型，让它能够根据画面“雕刻”出精准的空间音轨。

最终，OmniAudio 能够根据画面中的视觉线索，比如“汽车从左边开过来”，输出与之完美匹配的空间音频。

效果如何？超越所有对手！

在测试阶段，研究团队使用了两个测试集：Sphere360-Bench 和 YT360-Test，并使用了客观指标（如 FD、KL、ΔAngular）和主观评测（人类听感打分）来对比性能。

结果非常惊艳：

OmniAudio 在所有指标上全面超越现有所有方法；
人类主观评分中，OmniAudio 的空间感、清晰度、画面与声音的同步度均高于最佳对比模型；
消融实验也验证了：预训练策略、双分支视觉建模、模型规模等设计对提升性能缺一不可。

虚拟世界的声音革命

OmniAudio 的出现，意味着我们离真正“沉浸式音画合一”的虚拟现实更近了一步。未来，无论是VR游戏、线上展览、虚拟旅游，还是影视制作，都将有机会用更真实、更细腻的声音打动用户。

空间音频，不再是“高端专属”，而是即将走入大众视野的“听觉革命”。

http://www.xdnf.cn/news/9777.html

相关文章：

核心知识点：惯性导航（Inertial Navigation）

【python深度学习】Day 39 图像数据与显存

在 Ubuntu 服务器上下载 Clash 文件使用代理

Opencv实用操作5 图像腐蚀膨胀

将 Figma 设计稿通过编码一比一还原成 App 界面

远程调用 | OpenFeign+LoadBalanced的使用

LocalResolver使用

2025年全国青少年信息素养大赛 scratch图形化编程挑战赛小低组初赛内部集训模拟题解析

Python使用MD5码加密手机号等敏感信息

UI自动化测试的革新，新一代AI工具MidScene.js实测！

leetcode450.删除二叉搜索树中的节点：迭代法巧用中间节点应对多场景删除

wechat-003-学习笔记

服务器密码安全运维解决新思路：凭据管理SMS+双因素SLA认证结合的方案

3d GIS数据来源与编辑工具

OpenAI o3安全危机：AI“抗命”背后的技术暗战与产业变局

使用微软最近开源的WSL在Windows上优雅的运行Linux

【笔记】Trae+Andrioid Studio+Kotlin开发安卓WebView应用

位集合（STL bitset）简介

Starrocks 物化视图的实现以及在刷新期间能否读数据

分布式不同数据的一致性模型

Java开发经验——阿里巴巴编码规范实践解析8

RK3568DAYU开发板-平台驱动开发--UART

传输层协议TCP（上）

【Linux】线程概念

时序数据库IoTDB基于云原生的创新与实践

Linux 开发工具

第6讲、 Odoo 18 `tools` 模块深度分析

leetcode450.删除二叉搜索树中的节点：递归法利用有序性处理四种删除场景

动态规划法在解决实际问题中的应用