阿里通义再出击：OmniAudio空间音频模型亮相

北京 – 阿里巴巴通义实验室语音团队近日发布了OmniAudio，一项革命性的技术，旨在从360°视频中生成空间音频（FOA），为虚拟现实（VR）和沉浸式娱乐带来前所未有的真实音频体验。这项技术有望解决传统视频到音频生成技术无法满足沉浸式体验对3D声音定位需求的难题，标志着空间音频技术发展的重要一步。

OmniAudio是什么？

OmniAudio的核心功能是从360°视频直接生成FOA音频。FOA音频是一种标准的3D空间音频格式，能够捕捉声音的方向性，实现真实的3D音频再现。它采用四个通道（W、X、Y、Z）来表示声音，其中W通道负责捕捉整体声压，X、Y、Z通道则分别捕捉前后、左右以及垂直方向的声音信息。这种设计确保了在头部旋转时，声音定位的准确性得以保持。

技术原理：自监督预训练与有监督微调

OmniAudio的训练过程分为两个阶段：

自监督的coarse-to-fine流匹配预训练： 由于真实FOA数据稀缺，研究团队利用大规模非空间音频资源（如 FreeSound、AudioSet、VGGSound 等），将立体声转换为“伪FOA”格式。通过四通道VAE编码器获得潜在表示，并进行随机时间窗掩码，模型通过最小化掩码前后潜在状态的速度场差异，实现对音频时序和结构的自监督学习。这一阶段使模型掌握了通用音频特征和宏观时域规律，为后续空间音频的精细化提供了基础。
基于双分支视频表示的有监督微调： 仅使用真实的FOA音频数据，沿用掩码流匹配的训练框架，但此时模型的全部注意力集中在四通道的空间特性上。通过对真实FOA潜在序列进行更高概率的掩码，强化了对声源方向的表征能力，在解码端提升了对高保真空间音频细节的重建效果。模型与双分支视频编码器结合，利用冻结的MetaCLIP-Huge图像编码器提取全局特征和局部细节表征，最终微调条件流场，从噪声中精准地“雕刻”出符合视觉指示的FOA潜在轨迹。

数据集：Sphere360

为了支持OmniAudio的训练，阿里巴巴构建了一个大规模数据集Sphere360，包含超过10.3万个视频片段，涵盖288种音频事件，总时长288小时，为模型训练提供了丰富资源。

应用场景：潜力无限

OmniAudio的应用前景广阔，主要包括：

虚拟现实（VR）和沉浸式体验： 为VR内容生成与视觉场景高度匹配的空间音频，增强用户的沉浸感。
360°视频配乐： 为360°全景视频自动生成沉浸式音效，使观众在观看视频时能获得更真实的听觉体验。
智能语音助手： 集成到智能家居设备中，实现更自然和沉浸式的语音交互。
机器人和自动驾驶领域： 为这些系统提供更准确的声音定位和环境感知，提升安全性和效率。

项目地址：

项目官网：https://omniaudio-360v2sa.github.io/
Github仓库：https://github.com/liuhuadai/OmniAudio
arXiv技术论文：https://arxiv.org/pdf/2504.14906

结语：

OmniAudio的发布是阿里巴巴在人工智能领域，特别是空间音频技术方面的重要突破。它不仅解决了现有技术的局限性，还为VR、沉浸式娱乐等领域带来了全新的可能性。随着技术的不断发展和应用，我们有理由相信，OmniAudio将在未来为用户带来更加真实、沉浸式的音频体验。这项技术也预示着未来AI在音频领域的应用将更加广泛和深入，为人们的生活带来更多便利和乐趣。

参考文献：