复旦腾讯联手，DICE-Talk情感肖像惊艳亮相

上海讯 – 在人工智能领域，情感表达一直是技术发展的重要方向。近日，复旦大学与腾讯优图实验室联合推出了一款名为DICE-Talk的创新型情感化动态肖像生成框架，该框架旨在生成具有生动情感表达且保持身份一致性的动态肖像视频，为数字人、虚拟助手等应用场景带来革命性突破。

DICE-Talk的发布，标志着AI在情感理解和表达方面迈出了重要一步。这款框架不仅能够根据输入的音频和参考图像生成带有特定情感的动态肖像视频，还能在生成过程中保持人物身份特征，避免信息泄露或混淆。更令人瞩目的是，DICE-Talk在视觉质量、唇部同步和情感表达方面均达到了较高水平，并具备良好的泛化能力，能够适应未见过的身份和情感组合。

技术解析：DICE-Talk如何实现情感化动态肖像生成？

DICE-Talk的技术原理主要包括以下几个关键模块：

解耦身份与情感： 框架基于跨模态注意力机制，联合建模音频和视觉情感线索，将情感表示为身份无关的高斯分布。通过对比学习，确保相同情感的特征在嵌入空间中聚集，不同情感的特征则分散。
情感关联增强： 引入情感库，存储多种情感的特征表示，并通过向量量化和基于注意力的特征聚合，学习情感之间的关系。这种机制能够帮助模型更好地生成其他情感，提升情感生成的准确性和多样性。
情感判别目标： 在扩散模型的生成过程中，基于情感判别器确保生成视频的情感一致性。情感判别器与扩散模型联合训练，确保生成的视频在情感表达上与目标情感一致，同时保持视觉质量和唇部同步。
扩散模型框架： 采用扩散模型框架，从高斯噪声开始，逐步去噪生成目标视频。基于变分自编码器（VAE）将视频帧映射到潜在空间，并在潜在空间中逐步引入高斯噪声，最后基于扩散模型逐步去除噪声，生成目标视频。

DICE-Talk的应用前景：赋能数字世界，连接人类情感

DICE-Talk的出现，为众多应用场景带来了新的可能性：