摘要: 阿里巴巴通义实验室语音团队近日发布了OmniAudio,一项能够从360°视频生成空间音频(FOA)的创新技术。该技术旨在为虚拟现实和沉浸式娱乐提供更真实的音频体验,解决了传统视频到音频生成技术无法满足3D声音定位需求的难题。
北京 – 在追求更逼真、更沉浸式体验的浪潮中,阿里巴巴通义实验室语音团队推出了一项引人注目的新技术:OmniAudio。这项技术能够直接从360°视频生成空间音频(First-Order Ambisonics,FOA),为虚拟现实(VR)、增强现实(AR)以及其他沉浸式应用场景带来革命性的音频体验。
传统的视频到音频生成技术通常只能产生非空间音频,这意味着声音缺乏方向感和空间感,无法与360°视频提供的全景视觉体验相匹配。OmniAudio的出现,正是为了弥补这一缺憾。
技术原理:从“伪FOA”到双分支视频编码
OmniAudio的技术核心在于两个阶段的训练:自监督的coarse-to-fine流匹配预训练和基于双分支视频表示的有监督微调。
由于真实的FOA数据稀缺,研究团队巧妙地利用大规模非空间音频资源,如FreeSound、AudioSet、VGGSound等,将立体声转换为“伪FOA”格式。这种转换方式将左右声道之和作为W通道(整体声压),左右声道之差作为X通道(前后方向),而Y和Z通道(左右和垂直方向)则置零。
在模型训练阶段,转换后的“伪FOA”音频被送入四通道VAE编码器,获得潜在表示。随后,模型通过最小化掩码前后潜在状态的速度场差异,实现对音频时序和结构的自监督学习。这一阶段让模型掌握了通用音频特征和宏观时域规律。
在有监督微调阶段,OmniAudio仅使用真实的FOA音频数据,并结合双分支视频编码器。针对输入的360°全景视频,使用冻结的MetaCLIP-Huge图像编码器提取全局特征,同时从同一视频中裁取FOV局部视角,同样通过该编码器获取局部细节表征。全局特征和局部特征与音频潜在序列结合,最终微调条件流场,从噪声中精准地“雕刻”出符合视觉指示的FOA潜在轨迹。
OmniAudio的应用前景
OmniAudio的应用场景广泛,潜力巨大:
- 虚拟现实(VR)和沉浸式体验: 为VR内容生成与视觉场景高度匹配的空间音频,显著增强用户的沉浸感。试想一下,在VR游戏中,你不仅能看到周围的环境,还能清晰地听到不同方向传来的声音,例如脚步声、风声、枪声等,这将极大地提升游戏的真实感和代入感。
- 360°视频配乐: 为360°全景视频自动生成沉浸式音效,使观众在观看视频时能获得更真实的听觉体验。例如,在观看一段海滩的360°视频时,你不仅能看到海浪拍打沙滩的景象,还能听到海浪从不同方向传来的声音,仿佛身临其境。
- 智能语音助手: 集成到智能家居设备中,如智能音箱、智能家电等,实现更自然、更智能的语音交互。例如,当你询问智能音箱天气时,它不仅能告诉你温度和湿度,还能模拟出不同天气下的环境声音,例如下雨声、风声等。
- 机器人和自动驾驶领域: 为机器人和自动驾驶系统提供更准确的声音定位和环境感知能力,帮助它们更好地理解周围的世界。例如,自动驾驶汽车可以利用OmniAudio技术,准确识别出警笛声、鸣笛声等,从而做出更安全的驾驶决策。
挑战与展望
尽管OmniAudio取得了显著的进展,但仍面临一些挑战。例如,如何进一步提高生成音频的质量和真实感,如何处理复杂的声学环境,以及如何降低计算成本等。
不过,随着人工智能技术的不断发展,相信这些挑战都将得到解决。OmniAudio的出现,标志着空间音频生成技术迈出了重要一步,为未来的沉浸式体验带来了无限可能。
项目地址:
- 项目官网:https://omniaudio-360v2sa.github.io/
- Github仓库:https://github.com/liuhuadai/OmniAudio
- arXiv技术论文:https://arxiv.org/pdf/2504.14906
参考文献:
- Li, H., et al. (2024). OmniAudio: Generating Spatial Audio from 360° Video. arXiv preprint arXiv:2504.14906.
- 通义实验室官方网站. (2024). OmniAudio项目介绍. Retrieved from https://omniaudio-360v2sa.github.io/
(作者:一名资深新闻记者和编辑)
Views: 0
