北京—— 在人工智能驱动的数字人技术领域,一项引人注目的突破正在悄然发生。阿里巴巴AMAP团队与北京邮电大学近日联合推出了名为FantasyTalking的创新框架,该框架能够仅凭一张静态肖像,生成逼真且可控的数字人,为游戏开发、影视制作、虚拟现实等领域带来了新的可能性。
FantasyTalking的核心在于其双阶段视听对齐策略,以及对预训练视频扩散变换器模型的巧妙运用。该框架首先通过片段级训练,建立音频与全局场景的关联,捕捉包括面部表情、身体动作在内的非语言线索。随后,通过唇部追踪掩码,在帧级别精细化唇部运动,确保口型与音频的精准同步。
技术解析:双阶段对齐与身份保持
FantasyTalking的技术亮点在于其双阶段视听对齐策略,它将全局运动的连贯性与唇部运动的精确性相结合。第一阶段,模型通过片段级训练方案,捕捉音频与整个场景(包括参考肖像、上下文对象和背景)之间的弱相关性,建立全局的视听依赖关系,实现整体特征融合。使模型能学习到与音频相关的非语言线索(如眉毛运动、肩膀动作)和强音频同步的唇部动态。第二阶段,模型专注于帧级与音频高度相关的视觉特征细化,特别是唇部动作。通过使用唇部追踪掩码,模型能确保唇部运动与音频信号精确对齐,提高生成视频的质量。
此外,为了解决传统参考网络方法对人物和背景自然变化的限制,FantasyTalking采用了面部专注的交叉注意力模块,集中建模面部区域,通过交叉注意力机制解耦身份保留与动作生成。这种轻量级的设计解放了对背景和人物自然运动的限制,确保在整个生成的视频序列中保持角色的身份特征。
功能亮点:口型同步、表情生成与运动强度控制
FantasyTalking并非仅仅是让静态图像动起来,它更注重细节和可控性。该框架具备以下主要功能:
- 口型同步: 准确识别并同步虚拟角色的口型与输入语音,增强角色的真实感。
- 面部动作生成: 根据语音内容和情感信息,生成丰富的面部表情,如眨眼、皱眉、微笑等。
- 全身动作生成: 根据场景和情节需要,生成全身的动作和姿态,使虚拟角色在动画中更加自然流畅。
- 运动强度控制: 通过运动强度调制模块,用户可以显式控制面部表情和身体运动的强度,实现对肖像运动的可控操纵。
- 多种风格支持: 支持多种风格的虚拟形象,写实风格、卡通风格,能生成高质量的对话视频。
- 多种姿态支持: 支持生成具有各种身体范围和朝向的逼真说话视频,包括特写肖像、半身、全身以及正面和侧面姿势。
应用前景:游戏、影视与更多可能
FantasyTalking的应用场景十分广泛。在游戏开发中,它可以用于生成游戏角色的对话和战斗动画,提升游戏的视觉效果和玩家的沉浸感。在影视制作中,它可以快速生成具有复杂表情和动作的虚拟角色,降低制作成本。此外,在虚拟现实、增强现实、虚拟主播、智能教育等领域,FantasyTalking同样具有巨大的应用潜力。
项目信息:
- 项目官网:https://fantasy-amap.github.io/fantasy-talking/
- Github仓库:https://github.com/Fantasy-AMAP/fantasy-talking
- arXiv技术论文:https://arxiv.org/pdf/2504.04842
未来展望:
FantasyTalking的发布,标志着数字人技术在易用性和可控性方面迈出了重要一步。随着技术的不断发展,我们有理由相信,未来的数字人将更加逼真、智能,并在各个领域发挥更大的作用。然而,我们也需要关注数字人技术可能带来的伦理和社会问题,例如身份盗用、信息误导等,并制定相应的规范和监管措施。
参考文献:
- FantasyTalking项目官网:https://fantasy-amap.github.io/fantasy-talking/
- FantasyTalking Github仓库:https://github.com/Fantasy-AMAP/fantasy-talking
- FantasyTalking arXiv技术论文:https://arxiv.org/pdf/2504.04842 (假设arXiv链接存在,实际可能需要根据具体情况查找)
注: 由于部分信息(如arXiv论文链接)可能需要进一步核实,请在引用时进行确认。 此外,文中的“2504.04842” arXiv编号看起来像是未来的日期,请替换为实际的arXiv编号。
Views: 1
