北京时间2024年5月16日 – 阿里巴巴通义实验室语音团队近日发布了OmniAudio,一项革命性的空间音频生成模型,旨在为虚拟现实(VR)和沉浸式娱乐领域带来更真实、更具空间感的音频体验。该技术能够直接从360°视频生成第一人称视角(FOA)格式的空间音频,解决了传统视频到音频生成技术无法满足3D声音定位需求的难题。

在数字时代,用户对沉浸式体验的需求日益增长。传统的音频技术往往无法捕捉声音的方向性,导致VR和360°视频的体验感大打折扣。OmniAudio的出现,正是为了填补这一空白,它通过捕捉声音的方向性,实现真实的3D音频再现,让用户仿佛身临其境。

技术解析:自监督预训练与双分支视频表示

OmniAudio的核心技术在于其独特的训练方法,该方法分为两个阶段:自监督的coarse-to-fine流匹配预训练和基于双分支视频表示的有监督微调。

第一阶段:自监督预训练

由于真实FOA数据稀缺,通义实验室的研究团队巧妙地利用大规模非空间音频资源(如FreeSound、AudioSet、VGGSound等),将立体声转换为“伪FOA”格式。随后,通过四通道变分自编码器(VAE)编码获得潜在表示,并采用随机时间窗掩码技术进行自监督学习。这一阶段旨在让模型掌握通用音频特征和宏观时域规律,为后续空间音频的精细化提供基础。

第二阶段:有监督微调

在这一阶段,模型仅使用真实的FOA音频数据,并沿用掩码流匹配的训练框架。通过对真实FOA潜在序列进行更高概率的掩码,强化了模型对声源方向的表征能力,从而在解码端提升了对高保真空间音频细节的重建效果。

更值得一提的是,OmniAudio采用了双分支视频编码器,针对输入的360°全景视频,分别提取全局特征和局部细节表征。全局特征用于提供整体环境信息,局部特征则用于提供细节信息,两者结合,使得模型能够更精准地“雕刻”出符合视觉指示的FOA潜在轨迹。

数据驱动:Sphere360大规模数据集

OmniAudio的成功离不开大规模数据集的支持。通义实验室构建了Sphere360数据集,包含超过10.3万个视频片段,涵盖288种音频事件,总时长288小时。这一庞大的数据集为模型训练提供了丰富的资源,确保了OmniAudio的生成质量和泛化能力。

应用前景:VR、360°视频、智能助手、机器人

OmniAudio的应用前景十分广阔,不仅可以应用于虚拟现实(VR)和沉浸式体验,为VR内容生成与视觉场景高度匹配的空间音频,增强用户的沉浸感,还可以用于360°视频配乐,为全景视频自动生成沉浸式音效。

此外,OmniAudio还可以集成到智能家居设备中,如智能音箱、智能家电等,实现语音控制和交互。在机器人和自动驾驶领域,OmniAudio可以为这些系统提供更准确的声音定位和环境感知。

开源共享:推动空间音频技术发展

为了推动空间音频技术的发展,通义实验室选择开源OmniAudio。目前,OmniAudio的项目地址已在GitHub上公开,并提供了arXiv技术论文供研究者参考。

结语:开启沉浸式体验新纪元

OmniAudio的发布,标志着空间音频生成技术迈上了一个新的台阶。它不仅为VR和沉浸式娱乐带来了全新的可能性,也为智能家居、机器人和自动驾驶等领域提供了更强大的技术支持。随着OmniAudio的不断发展和完善,我们有理由相信,它将开启沉浸式体验的新纪元。

参考文献:

  • Li, H., et al. (2024). OmniAudio: Generating Spatial Audio from 360° Video. arXiv preprint arXiv:2504.14906.

(完)


>>> Read more <<<

Views: 0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注