复旦腾讯联手，DICE-Talk让AI肖像“活”起来！

上海 – 在人工智能领域不断突破的浪潮中，复旦大学与腾讯优图实验室携手推出了一项引人瞩目的创新成果——DICE-Talk，一个情感化动态肖像生成框架。这项技术不仅能够生成具有生动情感表达的动态肖像视频，还能在生成过程中保持身份的一致性，为数字人、虚拟助手等应用场景带来了全新的可能性。

DICE-Talk的核心在于其能够根据输入的音频和参考图像，生成带有特定情感表达的动态肖像视频。与以往的动态肖像生成技术不同，DICE-Talk特别强调在情感化视频生成过程中保持输入参考图像的身份特征，避免身份信息的泄露或混淆。这项特性对于保护个人隐私、维护品牌形象等方面具有重要意义。

该框架引入了情感关联增强模块，通过情感库捕获不同情感之间的关系，从而提升情感生成的准确性和多样性。此外，DICE-Talk还设计了情感判别目标，基于情感分类确保生成过程中的情感一致性。在MEAD和HDTF数据集上的实验结果表明，DICE-Talk在情感准确性、对口型和视觉质量方面均优于现有技术。

DICE-Talk的技术原理主要体现在以下几个方面：

解耦身份与情感： 基于跨模态注意力机制联合建模音频和视觉情感线索，将情感表示为身份无关的高斯分布。利用对比学习（如InfoNCE损失）训练情感嵌入器，确保相同情感的特征在嵌入空间中聚集，不同情感的特征则分散。
情感关联增强： 构建可学习的情感库，存储多种情感的特征表示。通过向量量化和基于注意力的特征聚合，学习情感之间的关系。情感库存储单一情感的特征，学习情感之间的关联，帮助模型更好地生成其他情感。
情感判别目标： 在扩散模型的生成过程中，基于情感判别器确保生成视频的情感一致性。情感判别器与扩散模型联合训练，确保生成的视频在情感表达上与目标情感一致，保持视觉质量和唇部同步。
扩散模型框架： 从高斯噪声开始，逐步去噪生成目标视频。基于变分自编码器（VAE）将视频帧映射到潜在空间，在潜在空间中逐步引入高斯噪声，基于扩散模型逐步去除噪声，生成目标视频。在去噪过程中，扩散模型基于跨模态注意力机制，结合参考图像、音频特征和情感特征，引导视频生成。

DICE-Talk的应用场景十分广泛，包括：

DICE-Talk的推出，标志着情感化动态肖像生成技术迈上了一个新的台阶。这项技术不仅在学术研究上具有重要价值，更在实际应用中展现出巨大的潜力。随着人工智能技术的不断发展，我们有理由相信，DICE-Talk将在未来的数字世界中扮演越来越重要的角色，为人们的生活带来更多便利和乐趣。

参考文献

Toto222. DICE-Talk Project Page. https://toto222.github.io/DICE-Talk/
Toto222. DICE-Talk GitHub Repository. https://github.com/toto222/DICE-Talk
Toto222. DICE-Talk arXiv Paper. https://arxiv.org/pdf/2504.18087 (Note: The arXiv link is a placeholder as the provided link leads to a non-existent paper. A real arXiv link would be used if available.)