阿里通义发布OmniAudio：空间音频新纪元？

杭州—— 阿里巴巴通义实验室语音团队近日发布了一项引人注目的AI技术——OmniAudio，该模型能够从360°视频中生成空间音频（First-Order Ambisonics，FOA），为虚拟现实（VR）和沉浸式娱乐带来更逼真的音频体验。这一突破有望解决传统视频到音频生成技术在3D声音定位方面的局限，进一步提升用户在VR和全景视频中的沉浸感。

技术原理：自监督预训练与双分支视频表示

OmniAudio的技术核心在于两个阶段的训练：自监督的coarse-to-fine流匹配预训练，以及基于双分支视频表示的有监督微调。

自监督预训练： 考虑到真实FOA数据的稀缺性，研究团队利用大规模非空间音频资源（如FreeSound、AudioSet、VGGSound等），通过算法将立体声转换为“伪FOA”格式，模拟空间音频的特性。随后，模型通过掩码流匹配技术，学习音频的时序结构和通用特征，为后续的空间音频精细化奠定基础。
有监督微调： 在此阶段，模型仅使用真实的FOA音频数据，并结合双分支视频编码器。针对输入的360°全景视频，模型提取全局特征和局部细节表征，并将这些视觉信息与音频潜在序列结合，从而精准地生成与视觉场景高度对齐、具备精确方向感的四通道空间音频。

FOA音频是一种标准的3D空间音频格式，它使用四个通道（W、X、Y、Z）来表示声音。其中，W通道捕捉整体声压，X、Y、Z通道则分别捕捉前后、左右以及垂直方向的声音信息。这种格式能够确保在头部旋转时，声音定位的准确性得以保持。

应用场景：VR、全景视频与智能设备

OmniAudio的应用前景广阔，主要体现在以下几个方面：

虚拟现实（VR）和沉浸式体验： OmniAudio能够为VR内容生成与视觉场景高度匹配的空间音频，显著增强用户的沉浸感。
360°视频配乐： 该技术可以为360°全景视频自动生成沉浸式音效，使观众在观看视频时获得更真实的听觉体验。
智能语音助手： OmniAudio有望集成到智能家居设备中，为用户提供更自然、更智能的语音交互体验。
机器人和自动驾驶领域： 通过提供更准确的声音定位和环境感知，OmniAudio可以提升机器人和自动驾驶系统的性能。

数据支撑：Sphere360大规模数据集

为了训练OmniAudio模型，阿里通义实验室构建了一个名为Sphere360的大规模数据集。该数据集包含超过10.3万个视频片段，涵盖288种音频事件，总时长达到288小时，为模型训练提供了丰富的资源。

项目地址与技术论文

感兴趣的开发者和研究者可以通过以下链接了解更多信息：

项目官网： https://omniaudio-360v2sa.github.io/
Github仓库： https://github.com/liuhuadai/OmniAudio
arXiv技术论文： https://arxiv.org/pdf/2504.14906

结论：空间音频技术的未来

OmniAudio的推出标志着空间音频生成技术取得了重要进展。通过结合自监督学习和双分支视频表示，该模型能够从360°视频中生成高质量的空间音频，为VR、全景视频和智能设备等领域带来更逼真的沉浸式体验。随着技术的不断发展和应用场景的不断拓展，空间音频有望成为未来人机交互的重要组成部分。

参考文献

Li, H., et al. (2024). OmniAudio: Generating Spatial Audio from 360° Video. arXiv preprint arXiv:2504.14906.
OmniAudio官方网站: https://omniaudio-360v2sa.github.io/
OmniAudio Github仓库: https://github.com/liuhuadai/OmniAudio

>>> Read more <<<