北京 – 阿里巴巴通义实验室语音团队近日发布了OmniAudio,一项革命性的技术,旨在从360°视频中生成空间音频(FOA),为虚拟现实(VR)和沉浸式娱乐带来前所未有的真实音频体验。这项技术有望解决传统视频到音频生成技术无法满足沉浸式体验对3D声音定位需求的难题,标志着空间音频技术发展的重要一步。

OmniAudio是什么?

OmniAudio的核心功能是从360°视频直接生成FOA音频。FOA音频是一种标准的3D空间音频格式,能够捕捉声音的方向性,实现真实的3D音频再现。它采用四个通道(W、X、Y、Z)来表示声音,其中W通道负责捕捉整体声压,X、Y、Z通道则分别捕捉前后、左右以及垂直方向的声音信息。这种设计确保了在头部旋转时,声音定位的准确性得以保持。

技术原理:自监督预训练与有监督微调

OmniAudio的训练过程分为两个阶段:

  1. 自监督的coarse-to-fine流匹配预训练: 由于真实FOA数据稀缺,研究团队利用大规模非空间音频资源(如 FreeSound、AudioSet、VGGSound 等),将立体声转换为“伪FOA”格式。通过四通道VAE编码器获得潜在表示,并进行随机时间窗掩码,模型通过最小化掩码前后潜在状态的速度场差异,实现对音频时序和结构的自监督学习。这一阶段使模型掌握了通用音频特征和宏观时域规律,为后续空间音频的精细化提供了基础。

  2. 基于双分支视频表示的有监督微调: 仅使用真实的FOA音频数据,沿用掩码流匹配的训练框架,但此时模型的全部注意力集中在四通道的空间特性上。通过对真实FOA潜在序列进行更高概率的掩码,强化了对声源方向的表征能力,在解码端提升了对高保真空间音频细节的重建效果。模型与双分支视频编码器结合,利用冻结的MetaCLIP-Huge图像编码器提取全局特征和局部细节表征,最终微调条件流场,从噪声中精准地“雕刻”出符合视觉指示的FOA潜在轨迹。

数据集:Sphere360

为了支持OmniAudio的训练,阿里巴巴构建了一个大规模数据集Sphere360,包含超过10.3万个视频片段,涵盖288种音频事件,总时长288小时,为模型训练提供了丰富资源。

应用场景:潜力无限

OmniAudio的应用前景广阔,主要包括:

  • 虚拟现实(VR)和沉浸式体验: 为VR内容生成与视觉场景高度匹配的空间音频,增强用户的沉浸感。
  • 360°视频配乐: 为360°全景视频自动生成沉浸式音效,使观众在观看视频时能获得更真实的听觉体验。
  • 智能语音助手: 集成到智能家居设备中,实现更自然和沉浸式的语音交互。
  • 机器人和自动驾驶领域: 为这些系统提供更准确的声音定位和环境感知,提升安全性和效率。

项目地址:

结语:

OmniAudio的发布是阿里巴巴在人工智能领域,特别是空间音频技术方面的重要突破。它不仅解决了现有技术的局限性,还为VR、沉浸式娱乐等领域带来了全新的可能性。随着技术的不断发展和应用,我们有理由相信,OmniAudio将在未来为用户带来更加真实、沉浸式的音频体验。这项技术也预示着未来AI在音频领域的应用将更加广泛和深入,为人们的生活带来更多便利和乐趣。

参考文献:


>>> Read more <<<

Views: 0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注