北京 – 近日,由腾讯与浙江大学联合推出的音频驱动肖像动画框架Sonic正式亮相,引发业界广泛关注。该框架通过先进的AI技术,实现了仅凭音频输入即可生成逼真面部表情和动作的肖像动画,在视频质量、唇部同步精度、运动多样性和时间连贯性方面均超越了现有技术,为虚拟现实、影视制作、在线教育等领域带来了全新的可能性。
Sonic:让音频“驱动”人脸
传统的肖像动画生成往往依赖于视觉信号,例如运动捕捉或关键帧动画。而Sonic则打破了这一局限,完全基于音频信号驱动动画生成。其核心在于“听懂”音频中的细微差别,并将这些信息转化为自然的面部表情和头部动作。
Sonic框架主要包含以下几个关键技术:
- 上下文增强音频学习: 该技术能够提取音频片段内的长期时间音频知识,将音频信号中的语调、语速等信息转化为面部表情和唇部运动的先验知识。Sonic 使用 Whisper-Tiny 模型提取音频特征,并基于多尺度理解将特征与空间交叉注意力层结合,指导空间帧的生成。
- 运动解耦控制器: 该控制器将头部运动和表情运动解耦,分别用独立的参数控制,增强了动画的多样性和自然性。用户还可以自定义夸张运动,通过调整运动桶参数(motion-bucket parameters)控制头部和表情运动的幅度。
- 时间感知位置偏移融合: 该技术基于时间感知的滑动窗口策略,将音频片段的局部感知扩展到全局感知,解决了长视频生成中的抖动和突变问题。模型在每个时间步中,从新的位置开始处理音频片段,逐步融合全局音频信息,确保长视频的连贯性。
技术优势:超越现有方案
Sonic 在视频质量、唇部同步精度、运动多样性和时间连贯性方面均优于现有的最先进方法,显著提升了肖像动画的自然性和连贯性。它解决了长视频生成中的抖动和突变问题,并支持用户对动画进行精细调整,从而大幅提升了用户体验。
应用场景:潜力无限
Sonic 的应用场景十分广泛,包括:
- 虚拟现实(VR): 为虚拟角色生成逼真的表情和口型,增强沉浸感。
- 影视制作: 快速生成角色的口型和表情动画,提高制作效率。
- 在线教育: 将教师语音转化为生动的动画,提升学习趣味性。
- 游戏开发: 生成游戏角色的自然表情和动作,增强真实感。
- 社交媒体: 用户可将语音与照片结合,生成个性化动画视频分享。
项目信息:
- 项目官网:https://jixiaozhong.github.io/Sonic/
- GitHub仓库:https://github.com/jixiaozhong/Sonic
- arXiv技术论文:https://arxiv.org/pdf/2411.16331
- 在线体验Demo:http://demo.sonic.jixiaozhong.online/
专家观点:
“Sonic 的出现,标志着音频驱动肖像动画技术迈上了一个新的台阶。”一位匿名AI专家表示,“它不仅在技术上取得了突破,更在应用场景上展现了巨大的潜力。相信随着技术的不断发展,Sonic 将会在各个领域发挥越来越重要的作用。”
结语:
Sonic 的发布,无疑为AI驱动的动画生成领域注入了新的活力。它不仅是腾讯和浙江大学在人工智能领域的一次成功合作,更是对未来人机交互方式的一次大胆探索。我们有理由相信,随着Sonic技术的不断完善和应用,将会为我们的生活带来更多惊喜和便利。
参考文献:
- Jixiao Zhong, et al. Sonic: Audio-Driven Portrait Animation with Contextual Enhancement. arXiv preprint arXiv:2411.16331 (2024).
Views: 0
