腾讯联手浙大：Sonic打造音频驱动肖像动画

北京 – 近日，由腾讯与浙江大学联合推出的音频驱动肖像动画框架Sonic正式亮相，引发业界广泛关注。该框架通过先进的AI技术，实现了仅凭音频输入即可生成逼真面部表情和动作的肖像动画，在视频质量、唇部同步精度、运动多样性和时间连贯性方面均超越了现有技术，为虚拟现实、影视制作、在线教育等领域带来了全新的可能性。

Sonic：让音频“驱动”人脸

传统的肖像动画生成往往依赖于视觉信号，例如运动捕捉或关键帧动画。而Sonic则打破了这一局限，完全基于音频信号驱动动画生成。其核心在于“听懂”音频中的细微差别，并将这些信息转化为自然的面部表情和头部动作。

Sonic框架主要包含以下几个关键技术：

上下文增强音频学习： 该技术能够提取音频片段内的长期时间音频知识，将音频信号中的语调、语速等信息转化为面部表情和唇部运动的先验知识。Sonic 使用 Whisper-Tiny 模型提取音频特征，并基于多尺度理解将特征与空间交叉注意力层结合，指导空间帧的生成。
运动解耦控制器： 该控制器将头部运动和表情运动解耦，分别用独立的参数控制，增强了动画的多样性和自然性。用户还可以自定义夸张运动，通过调整运动桶参数（motion-bucket parameters）控制头部和表情运动的幅度。
时间感知位置偏移融合： 该技术基于时间感知的滑动窗口策略，将音频片段的局部感知扩展到全局感知，解决了长视频生成中的抖动和突变问题。模型在每个时间步中，从新的位置开始处理音频片段，逐步融合全局音频信息，确保长视频的连贯性。

技术优势：超越现有方案

Sonic 在视频质量、唇部同步精度、运动多样性和时间连贯性方面均优于现有的最先进方法，显著提升了肖像动画的自然性和连贯性。它解决了长视频生成中的抖动和突变问题，并支持用户对动画进行精细调整，从而大幅提升了用户体验。

应用场景：潜力无限

Sonic 的应用场景十分广泛，包括：

虚拟现实（VR）： 为虚拟角色生成逼真的表情和口型，增强沉浸感。
影视制作： 快速生成角色的口型和表情动画，提高制作效率。
在线教育： 将教师语音转化为生动的动画，提升学习趣味性。
游戏开发： 生成游戏角色的自然表情和动作，增强真实感。
社交媒体： 用户可将语音与照片结合，生成个性化动画视频分享。

项目信息：

项目官网：https://jixiaozhong.github.io/Sonic/
GitHub仓库：https://github.com/jixiaozhong/Sonic
arXiv技术论文：https://arxiv.org/pdf/2411.16331
在线体验Demo：http://demo.sonic.jixiaozhong.online/

专家观点：

“Sonic 的出现，标志着音频驱动肖像动画技术迈上了一个新的台阶。”一位匿名AI专家表示，“它不仅在技术上取得了突破，更在应用场景上展现了巨大的潜力。相信随着技术的不断发展，Sonic 将会在各个领域发挥越来越重要的作用。”

结语：

Sonic 的发布，无疑为AI驱动的动画生成领域注入了新的活力。它不仅是腾讯和浙江大学在人工智能领域的一次成功合作，更是对未来人机交互方式的一次大胆探索。我们有理由相信，随着Sonic技术的不断完善和应用，将会为我们的生活带来更多惊喜和便利。

参考文献：

Jixiao Zhong, et al. Sonic: Audio-Driven Portrait Animation with Contextual Enhancement. arXiv preprint arXiv:2411.16331 (2024).

>>> Read more <<<

一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

腾讯联手浙大：Sonic打造音频驱动肖像动画

作者智能小编

相关文章

永新光学 (603297.SH) ：国产替代与新兴业务驱动下的价值重估

来伊份：转型阵痛中的价值重塑与未来突围

北方稀土 (600111.SH): 战略核心资产的价值重估——迎接“戴维斯双击”

发表回复取消回复

为您推荐