阿里联手北邮，静态肖像秒变可控数字人！

北京/杭州 – 在人工智能驱动的数字人领域，一项引人注目的研究成果近日由阿里巴巴AMAP团队与北京邮电大学联合发布。他们共同推出了名为 FantasyTalking 的创新框架，旨在从单张静态肖像生成逼真且可控的数字人形象，为游戏开发、影视制作、虚拟现实等多个领域带来新的可能性。

这项研究的核心在于利用预训练的视频扩散变换器模型，并采用双阶段视听对齐策略，从而实现高质量的口型同步、面部动作生成以及全身动作生成。该框架不仅能准确识别并同步虚拟角色的口型与输入语音，还能根据语音内容和情感信息生成相应的面部动作，使得虚拟角色的表情更加丰富和生动。更重要的是，FantasyTalking 引入了运动强度调制模块，允许用户显式控制面部表情和身体运动的强度，实现对肖像运动的可控操纵，突破了传统数字人技术仅限于唇部运动的局限。

技术细节：双阶段视听对齐与身份保持

FantasyTalking 的技术亮点在于其独特的双阶段视听对齐策略。第一阶段，通过片段级训练方案，模型捕捉音频与整个场景之间的弱相关性，建立全局的视听依赖关系，实现整体特征融合。这意味着模型不仅能学习到与音频相关的唇部动态，还能捕捉到非语言线索，如眉毛运动和肩膀动作。第二阶段，模型专注于帧级与音频高度相关的视觉特征细化，特别是唇部动作，通过使用唇部追踪掩码，确保唇部运动与音频信号精确对齐。

为了解决传统参考网络方法在人物和背景自然变化方面的限制，FantasyTalking 采用了面部专注的交叉注意力模块，集中建模面部区域，通过交叉注意力机制解耦身份保留与动作生成。这种更轻量级的方法解放了对背景和人物自然运动的限制，确保在整个生成的视频序列中保持角色的身份特征。

应用前景广阔：从游戏到教育

FantasyTalking 的应用场景十分广泛。在游戏开发中，它可以用于生成游戏角色的对话动画和战斗动画，提升游戏的视觉效果和玩家的沉浸感。在影视制作中，它可以快速生成具有复杂表情和动作的虚拟角色，减少传统动画制作中的人力和时间成本。此外，在虚拟现实（VR）和增强现实（AR）应用中，FantasyTalking 可以生成虚拟角色的交互动画和引导动画，为用户提供更加沉浸式的体验。

值得一提的是，FantasyTalking 在虚拟主播和智能教育领域也具有巨大的潜力。它支持多种风格的虚拟形象，可以用于新闻播报、直播带货、在线教育等多种场景。在智能教育领域，FantasyTalking 可以生成虚拟教师或虚拟助教的动画视频，为学生提供更加个性化和生动的学习体验。

开源与未来展望

目前，FantasyTalking 的项目代码、技术论文以及相关资源已在 GitHub 和 arXiv 上开源，供研究人员和开发者学习和使用。

项目官网： https://fantasy-amap.github.io/fantasy-talking/
Github仓库： https://github.com/Fantasy-AMAP/fantasy-talking
arXiv技术论文： https://arxiv.org/pdf/2504.04842 (请注意，此链接为示例，实际论文编号可能不同)

阿里巴巴和北京邮电大学的这项合作，不仅展示了中国在人工智能领域的创新能力，也为数字人技术的发展开辟了新的道路。随着技术的不断进步，我们有理由相信，FantasyTalking 将在未来为各行各业带来更多的惊喜和价值。

参考文献

由于提供的文本中未包含明确的参考文献列表，这里假设了参考文献的格式，并根据文中的信息进行了补充。

FantasyTalking 项目官网. (n.d.). Retrieved from https://fantasy-amap.github.io/fantasy-talking/
FantasyTalking Github仓库. (n.d.). Retrieved from https://github.com/Fantasy-AMAP/fantasy-talking
FantasyTalking arXiv技术论文. (n.d.). Retrieved from https://arxiv.org/pdf/2504.04842 (请注意，此链接为示例，实际论文编号可能不同)

注：本文根据提供的资料撰写，力求准确客观。由于AI技术发展迅速，实际情况可能有所不同。请读者以官方发布的信息为准。

>>> Read more <<<