阿里通义再出手！OmniAudio革新空间音频

北京时间2024年5月16日 – 阿里巴巴通义实验室语音团队近日发布了OmniAudio，一项革命性的空间音频生成模型，旨在为虚拟现实（VR）和沉浸式娱乐领域带来更真实、更具空间感的音频体验。该技术能够直接从360°视频生成第一人称视角（FOA）格式的空间音频，解决了传统视频到音频生成技术无法满足3D声音定位需求的难题。

在数字时代，用户对沉浸式体验的需求日益增长。传统的音频技术往往无法捕捉声音的方向性，导致VR和360°视频的体验感大打折扣。OmniAudio的出现，正是为了填补这一空白，它通过捕捉声音的方向性，实现真实的3D音频再现，让用户仿佛身临其境。

技术解析：自监督预训练与双分支视频表示

OmniAudio的核心技术在于其独特的训练方法，该方法分为两个阶段：自监督的coarse-to-fine流匹配预训练和基于双分支视频表示的有监督微调。

第一阶段：自监督预训练

由于真实FOA数据稀缺，通义实验室的研究团队巧妙地利用大规模非空间音频资源（如FreeSound、AudioSet、VGGSound等），将立体声转换为“伪FOA”格式。随后，通过四通道变分自编码器（VAE）编码获得潜在表示，并采用随机时间窗掩码技术进行自监督学习。这一阶段旨在让模型掌握通用音频特征和宏观时域规律，为后续空间音频的精细化提供基础。

第二阶段：有监督微调

在这一阶段，模型仅使用真实的FOA音频数据，并沿用掩码流匹配的训练框架。通过对真实FOA潜在序列进行更高概率的掩码，强化了模型对声源方向的表征能力，从而在解码端提升了对高保真空间音频细节的重建效果。

更值得一提的是，OmniAudio采用了双分支视频编码器，针对输入的360°全景视频，分别提取全局特征和局部细节表征。全局特征用于提供整体环境信息，局部特征则用于提供细节信息，两者结合，使得模型能够更精准地“雕刻”出符合视觉指示的FOA潜在轨迹。

数据驱动：Sphere360大规模数据集

OmniAudio的成功离不开大规模数据集的支持。通义实验室构建了Sphere360数据集，包含超过10.3万个视频片段，涵盖288种音频事件，总时长288小时。这一庞大的数据集为模型训练提供了丰富的资源，确保了OmniAudio的生成质量和泛化能力。

应用前景：VR、360°视频、智能助手、机器人

OmniAudio的应用前景十分广阔，不仅可以应用于虚拟现实（VR）和沉浸式体验，为VR内容生成与视觉场景高度匹配的空间音频，增强用户的沉浸感，还可以用于360°视频配乐，为全景视频自动生成沉浸式音效。

此外，OmniAudio还可以集成到智能家居设备中，如智能音箱、智能家电等，实现语音控制和交互。在机器人和自动驾驶领域，OmniAudio可以为这些系统提供更准确的声音定位和环境感知。

开源共享：推动空间音频技术发展

为了推动空间音频技术的发展，通义实验室选择开源OmniAudio。目前，OmniAudio的项目地址已在GitHub上公开，并提供了arXiv技术论文供研究者参考。

项目官网：https://omniaudio-360v2sa.github.io/
Github仓库：https://github.com/liuhuadai/OmniAudio
arXiv技术论文：https://arxiv.org/pdf/2504.14906

结语：开启沉浸式体验新纪元

OmniAudio的发布，标志着空间音频生成技术迈上了一个新的台阶。它不仅为VR和沉浸式娱乐带来了全新的可能性，也为智能家居、机器人和自动驾驶等领域提供了更强大的技术支持。随着OmniAudio的不断发展和完善，我们有理由相信，它将开启沉浸式体验的新纪元。

参考文献：

Li, H., et al. (2024). OmniAudio: Generating Spatial Audio from 360° Video. arXiv preprint arXiv:2504.14906.

（完）

>>> Read more <<<

一	二	三	四	五	六	日
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

阿里通义再出手！OmniAudio革新空间音频

作者智能小编

技术解析：自监督预训练与双分支视频表示

数据驱动：Sphere360大规模数据集

应用前景：VR、360°视频、智能助手、机器人

开源共享：推动空间音频技术发展

结语：开启沉浸式体验新纪元

相关文章

永新光学 (603297.SH) ：国产替代与新兴业务驱动下的价值重估

来伊份：转型阵痛中的价值重塑与未来突围

北方稀土 (600111.SH): 战略核心资产的价值重估——迎接“戴维斯双击”

发表回复取消回复

为您推荐

永新光学 (603297.SH) ：国产替代与新兴业务驱动下的价值重估

来伊份：转型阵痛中的价值重塑与未来突围

北方稀土 (600111.SH): 战略核心资产的价值重估——迎接“戴维斯双击”

国之重器，芯之所向：新周期与大国博弈下的中芯国际(688981.SH)价值重估

作者智能小编

技术解析：自监督预训练与双分支视频表示

数据驱动：Sphere360大规模数据集

应用前景：VR、360°视频、智能助手、机器人

开源共享：推动空间音频技术发展

结语：开启沉浸式体验新纪元

相关文章

发表回复 取消回复

为您推荐

发表回复取消回复