阿里联手北邮，AI数字人技术再突破！

北京—— 在人工智能驱动的数字人技术领域，一项引人注目的突破正在悄然发生。阿里巴巴AMAP团队与北京邮电大学近日联合推出了名为FantasyTalking的创新框架，该框架能够仅凭一张静态肖像，生成逼真且可控的数字人，为游戏开发、影视制作、虚拟现实等领域带来了新的可能性。

FantasyTalking的核心在于其双阶段视听对齐策略，以及对预训练视频扩散变换器模型的巧妙运用。该框架首先通过片段级训练，建立音频与全局场景的关联，捕捉包括面部表情、身体动作在内的非语言线索。随后，通过唇部追踪掩码，在帧级别精细化唇部运动，确保口型与音频的精准同步。

技术解析：双阶段对齐与身份保持

FantasyTalking的技术亮点在于其双阶段视听对齐策略，它将全局运动的连贯性与唇部运动的精确性相结合。第一阶段，模型通过片段级训练方案，捕捉音频与整个场景（包括参考肖像、上下文对象和背景）之间的弱相关性，建立全局的视听依赖关系，实现整体特征融合。使模型能学习到与音频相关的非语言线索（如眉毛运动、肩膀动作）和强音频同步的唇部动态。第二阶段，模型专注于帧级与音频高度相关的视觉特征细化，特别是唇部动作。通过使用唇部追踪掩码，模型能确保唇部运动与音频信号精确对齐，提高生成视频的质量。

此外，为了解决传统参考网络方法对人物和背景自然变化的限制，FantasyTalking采用了面部专注的交叉注意力模块，集中建模面部区域，通过交叉注意力机制解耦身份保留与动作生成。这种轻量级的设计解放了对背景和人物自然运动的限制，确保在整个生成的视频序列中保持角色的身份特征。

功能亮点：口型同步、表情生成与运动强度控制

FantasyTalking并非仅仅是让静态图像动起来，它更注重细节和可控性。该框架具备以下主要功能：

口型同步： 准确识别并同步虚拟角色的口型与输入语音，增强角色的真实感。
面部动作生成： 根据语音内容和情感信息，生成丰富的面部表情，如眨眼、皱眉、微笑等。
全身动作生成： 根据场景和情节需要，生成全身的动作和姿态，使虚拟角色在动画中更加自然流畅。
运动强度控制： 通过运动强度调制模块，用户可以显式控制面部表情和身体运动的强度，实现对肖像运动的可控操纵。
多种风格支持： 支持多种风格的虚拟形象，写实风格、卡通风格，能生成高质量的对话视频。
多种姿态支持： 支持生成具有各种身体范围和朝向的逼真说话视频，包括特写肖像、半身、全身以及正面和侧面姿势。

应用前景：游戏、影视与更多可能

FantasyTalking的应用场景十分广泛。在游戏开发中，它可以用于生成游戏角色的对话和战斗动画，提升游戏的视觉效果和玩家的沉浸感。在影视制作中，它可以快速生成具有复杂表情和动作的虚拟角色，降低制作成本。此外，在虚拟现实、增强现实、虚拟主播、智能教育等领域，FantasyTalking同样具有巨大的应用潜力。

项目信息：