引言

想象一下,仅凭一张静态照片和一段音频,就能生成一段栩栩如生的动态肖像视频,人物的表情、口型和头部姿态都与音频完美同步。这听起来像是科幻电影中的情节,但现在,广州趣丸科技团队推出的Playmate框架让这一想象成为了现实。Playmate是一个基于3D隐式空间引导扩散模型的人脸动画生成框架,它的出现不仅在音频驱动肖像动画领域取得了重大突破,还为影视制作、游戏开发、虚拟现实(VR)和增强现实(AR)等多个领域带来了全新的应用前景。

Playmate是什么?

Playmate是广州趣丸科技团队推出的人脸动画生成框架。该框架基于3D隐式空间引导扩散模型,采用双阶段训练框架,能够根据音频和指令精准控制人物的表情和头部姿态,生成高质量的动态肖像视频。Playmate基于运动解耦模块和情感控制模块,实现对生成视频的精细控制,显著提升视频质量和情感表达的灵活性。

Playmate的主要功能

  1. 音频驱动

    • 仅需一张静态照片和一段音频,生成对应的动态肖像视频,实现自然的口型同步和面部表情变化。
  2. 情感控制

    • 根据指定的情感条件(如愤怒、厌恶、轻蔑、恐惧、快乐、悲伤、惊讶等)生成具有特定情感的动态视频。
  3. 姿态控制

    • 支持基于驱动图像控制生成结果的姿态,实现头部的多种运动和姿势。
  4. 独立控制

    • 实现对表情、口型和头部姿态的独立控制。
  5. 多样化风格

    • 生成多种风格的动态肖像,包括真实人脸、动画、艺术肖像甚至动物,具有广泛的适用性。

Playmate的技术原理

3D隐式空间引导扩散模型
– 基于3D隐式空间表示,将面部属性(如表情、口型、头部姿态等)进行解耦。基于自适应归一化策略,进一步提高运动属性的解耦精度,确保生成的视频在表情和姿态上更加自然。

双阶段训练框架
1. 第一阶段
– 训练音频条件扩散变换器,直接从音频线索生成运动序列。基于运动解耦模块,实现对表情、口型和头部姿态的准确解耦。

  1. 第二阶段
    • 引入情感控制模块,将情感条件编码到潜在空间中,实现对生成视频的精细情感控制。

情感控制模块
– 基于DiT块(Diffusion Transformer Blocks)实现情感控制模块,用两个DiT块结构,将情感条件融入到生成过程中,实现对情感的精细控制。用分类器自由引导(Classifier-Free Guidance, CFG)策略,基于调整CFG权重,平衡生成视频的质量和多样性。

高效的扩散模型训练
– 用预训练的Wav2Vec2模型提取音频特征,基于自注意力机制对齐音频与运动特征。基于正向和反向马尔可夫链,逐步向目标运动数据添加高斯噪声,用扩散变换器预测去除噪声,生成最终的运动序列。

Playmate的项目地址

Playmate的应用场景

  1. 影视制作

    • 生成虚拟角色动画、特效增强及角色替换,减少手工制作成本,提升特效真实感。
  2. 游戏开发

    • 助力虚拟角色生成、互动剧情打造及NPC动画制作,增强游戏互动性和沉浸感。
  3. 虚拟现实(VR)和增强现实(AR)

    • 实现虚拟


>>> Read more <<<

Views: 0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注