阿里通义再出手！OmniAudio空间音频模型问世

摘要： 阿里巴巴通义实验室语音团队近日发布了OmniAudio，一项能够从360°视频生成空间音频（FOA）的创新技术。该技术旨在为虚拟现实和沉浸式娱乐提供更真实的音频体验，解决了传统视频到音频生成技术无法满足3D声音定位需求的难题。

北京 – 在追求更逼真、更沉浸式体验的浪潮中，阿里巴巴通义实验室语音团队推出了一项引人注目的新技术：OmniAudio。这项技术能够直接从360°视频生成空间音频（First-Order Ambisonics，FOA），为虚拟现实（VR）、增强现实（AR）以及其他沉浸式应用场景带来革命性的音频体验。

传统的视频到音频生成技术通常只能产生非空间音频，这意味着声音缺乏方向感和空间感，无法与360°视频提供的全景视觉体验相匹配。OmniAudio的出现，正是为了弥补这一缺憾。

技术原理：从“伪FOA”到双分支视频编码

OmniAudio的技术核心在于两个阶段的训练：自监督的coarse-to-fine流匹配预训练和基于双分支视频表示的有监督微调。

由于真实的FOA数据稀缺，研究团队巧妙地利用大规模非空间音频资源，如FreeSound、AudioSet、VGGSound等，将立体声转换为“伪FOA”格式。这种转换方式将左右声道之和作为W通道（整体声压），左右声道之差作为X通道（前后方向），而Y和Z通道（左右和垂直方向）则置零。

在模型训练阶段，转换后的“伪FOA”音频被送入四通道VAE编码器，获得潜在表示。随后，模型通过最小化掩码前后潜在状态的速度场差异，实现对音频时序和结构的自监督学习。这一阶段让模型掌握了通用音频特征和宏观时域规律。

在有监督微调阶段，OmniAudio仅使用真实的FOA音频数据，并结合双分支视频编码器。针对输入的360°全景视频，使用冻结的MetaCLIP-Huge图像编码器提取全局特征，同时从同一视频中裁取FOV局部视角，同样通过该编码器获取局部细节表征。全局特征和局部特征与音频潜在序列结合，最终微调条件流场，从噪声中精准地“雕刻”出符合视觉指示的FOA潜在轨迹。

OmniAudio的应用前景

OmniAudio的应用场景广泛，潜力巨大：

虚拟现实（VR）和沉浸式体验： 为VR内容生成与视觉场景高度匹配的空间音频，显著增强用户的沉浸感。试想一下，在VR游戏中，你不仅能看到周围的环境，还能清晰地听到不同方向传来的声音，例如脚步声、风声、枪声等，这将极大地提升游戏的真实感和代入感。
360°视频配乐： 为360°全景视频自动生成沉浸式音效，使观众在观看视频时能获得更真实的听觉体验。例如，在观看一段海滩的360°视频时，你不仅能看到海浪拍打沙滩的景象，还能听到海浪从不同方向传来的声音，仿佛身临其境。
智能语音助手： 集成到智能家居设备中，如智能音箱、智能家电等，实现更自然、更智能的语音交互。例如，当你询问智能音箱天气时，它不仅能告诉你温度和湿度，还能模拟出不同天气下的环境声音，例如下雨声、风声等。
机器人和自动驾驶领域： 为机器人和自动驾驶系统提供更准确的声音定位和环境感知能力，帮助它们更好地理解周围的世界。例如，自动驾驶汽车可以利用OmniAudio技术，准确识别出警笛声、鸣笛声等，从而做出更安全的驾驶决策。

挑战与展望

尽管OmniAudio取得了显著的进展，但仍面临一些挑战。例如，如何进一步提高生成音频的质量和真实感，如何处理复杂的声学环境，以及如何降低计算成本等。

不过，随着人工智能技术的不断发展，相信这些挑战都将得到解决。OmniAudio的出现，标志着空间音频生成技术迈出了重要一步，为未来的沉浸式体验带来了无限可能。

项目地址：

项目官网：https://omniaudio-360v2sa.github.io/
Github仓库：https://github.com/liuhuadai/OmniAudio
arXiv技术论文：https://arxiv.org/pdf/2504.14906

参考文献：

Li, H., et al. (2024). OmniAudio: Generating Spatial Audio from 360° Video. arXiv preprint arXiv:2504.14906.
通义实验室官方网站. (2024). OmniAudio项目介绍. Retrieved from https://omniaudio-360v2sa.github.io/

（作者：一名资深新闻记者和编辑）

>>> Read more <<<