北京 – 阿里巴巴AMAP团队与北京邮电大学近日联合发布了一项创新性的AI框架——FantasyTalking,该框架旨在通过单张静态肖像生成逼真且可控的数字人形象。这一技术突破有望在游戏开发、影视制作、虚拟现实、智能教育等多个领域带来革命性的变革。
数字人技术近年来备受关注,但如何从静态图像高效、高质量地生成可控的数字人一直是行业难题。FantasyTalking 的出现,为解决这一问题提供了新的思路。
FantasyTalking 的核心技术与功能:
- 双阶段视听对齐策略: FantasyTalking 采用了一种精妙的双阶段视听对齐策略。第一阶段,通过片段级训练,建立音频与整体场景的关联,捕捉非语言线索,如眉毛运动和肩膀动作。第二阶段,则专注于帧级别的唇部动作细化,利用唇部追踪掩码,确保口型与音频信号的精确同步。
- 面部专注交叉注意力模块: 为解决传统方法限制人物和背景自然变化的问题,FantasyTalking 引入了面部专注的交叉注意力模块。该模块集中建模面部区域,通过交叉注意力机制,将身份保留与动作生成解耦,从而在保持角色身份特征的同时,解放了背景和人物自然运动的限制。
- 运动强度调制模块: 用户可以通过运动强度调制模块,显式控制面部表情和身体运动的强度,实现对肖像运动的可控操纵,不再局限于简单的唇部运动。
- 基于预训练的视频扩散变换器模型: FantasyTalking 基于 Wan2.1 视频扩散变换器模型,利用其强大的时空建模能力,生成高保真、连贯的说话肖像视频。
FantasyTalking 的应用前景:
- 游戏开发: 生成游戏角色的对话和战斗动画,提升游戏角色的生动性和玩家的沉浸感。
- 影视制作: 快速生成具有复杂表情和动作的虚拟角色,降低动画制作成本,为影视作品带来更多创意。
- 虚拟现实/增强现实: 生成虚拟角色的交互和引导动画,提升VR/AR应用的互动体验。
- 虚拟主播: 生成多种风格的虚拟主播动画视频,应用于新闻播报、直播带货、在线教育等领域。
- 智能教育: 生成虚拟教师或助教的动画视频,提升在线教育的趣味性和互动性。
专家观点:
一位不愿透露姓名的AI领域专家表示:“FantasyTalking 框架在数字人生成领域具有重要意义。它不仅提升了数字人的逼真度和可控性,也降低了制作成本和技术门槛。该技术的应用前景广阔,有望推动数字人技术在各行各业的普及。”
项目地址:
- 项目官网:https://fantasy-amap.github.io/fantasy-talking/
- GitHub 仓库:https://github.com/Fantasy-AMAP/fantasy-talking
- arXiv 技术论文:https://arxiv.org/pdf/2504.04842
结论:
FantasyTalking 的发布,标志着静态肖像驱动数字人技术取得了新的突破。该框架凭借其独特的技术优势和广泛的应用前景,有望在数字人领域掀起一场新的技术革命,为各行各业带来更多创新和机遇。未来,随着技术的不断发展,我们期待看到 FantasyTalking 在更多领域发挥更大的作用。
参考文献:
- FantasyTalking 项目官网:https://fantasy-amap.github.io/fantasy-talking/
- FantasyTalking GitHub 仓库:https://github.com/Fantasy-AMAP/fantasy-talking
- FantasyTalking arXiv 技术论文:https://arxiv.org/pdf/2504.04842
(完)
Views: 2
