新闻报道新闻报道

杭州—— 阿里巴巴通义实验室语音团队近日发布了一项引人注目的AI技术——OmniAudio,该模型能够从360°视频中生成空间音频(First-Order Ambisonics,FOA),为虚拟现实(VR)和沉浸式娱乐带来更逼真的音频体验。这一突破有望解决传统视频到音频生成技术在3D声音定位方面的局限,进一步提升用户在VR和全景视频中的沉浸感。

技术原理:自监督预训练与双分支视频表示

OmniAudio的技术核心在于两个阶段的训练:自监督的coarse-to-fine流匹配预训练,以及基于双分支视频表示的有监督微调。

  • 自监督预训练: 考虑到真实FOA数据的稀缺性,研究团队利用大规模非空间音频资源(如FreeSound、AudioSet、VGGSound等),通过算法将立体声转换为“伪FOA”格式,模拟空间音频的特性。随后,模型通过掩码流匹配技术,学习音频的时序结构和通用特征,为后续的空间音频精细化奠定基础。
  • 有监督微调: 在此阶段,模型仅使用真实的FOA音频数据,并结合双分支视频编码器。针对输入的360°全景视频,模型提取全局特征和局部细节表征,并将这些视觉信息与音频潜在序列结合,从而精准地生成与视觉场景高度对齐、具备精确方向感的四通道空间音频。

FOA音频是一种标准的3D空间音频格式,它使用四个通道(W、X、Y、Z)来表示声音。其中,W通道捕捉整体声压,X、Y、Z通道则分别捕捉前后、左右以及垂直方向的声音信息。这种格式能够确保在头部旋转时,声音定位的准确性得以保持。

应用场景:VR、全景视频与智能设备

OmniAudio的应用前景广阔,主要体现在以下几个方面:

  • 虚拟现实(VR)和沉浸式体验: OmniAudio能够为VR内容生成与视觉场景高度匹配的空间音频,显著增强用户的沉浸感。
  • 360°视频配乐: 该技术可以为360°全景视频自动生成沉浸式音效,使观众在观看视频时获得更真实的听觉体验。
  • 智能语音助手: OmniAudio有望集成到智能家居设备中,为用户提供更自然、更智能的语音交互体验。
  • 机器人和自动驾驶领域: 通过提供更准确的声音定位和环境感知,OmniAudio可以提升机器人和自动驾驶系统的性能。

数据支撑:Sphere360大规模数据集

为了训练OmniAudio模型,阿里通义实验室构建了一个名为Sphere360的大规模数据集。该数据集包含超过10.3万个视频片段,涵盖288种音频事件,总时长达到288小时,为模型训练提供了丰富的资源。

项目地址与技术论文

感兴趣的开发者和研究者可以通过以下链接了解更多信息:

结论:空间音频技术的未来

OmniAudio的推出标志着空间音频生成技术取得了重要进展。通过结合自监督学习和双分支视频表示,该模型能够从360°视频中生成高质量的空间音频,为VR、全景视频和智能设备等领域带来更逼真的沉浸式体验。随着技术的不断发展和应用场景的不断拓展,空间音频有望成为未来人机交互的重要组成部分。

参考文献


>>> Read more <<<

Views: 0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注