腾讯混元携手清华推出创新肖像动画生成框架

“`markdown

腾讯混元联合清华等机构推出HunyuanPortrait：AI肖像动画生成新突破

北京 – 近日，腾讯混元团队联合清华大学、中山大学和香港科技大学等顶尖学府，共同发布了一款名为HunyuanPortrait的创新型肖像动画生成框架。该框架基于先进的扩散模型技术，旨在实现高度可控且逼真的肖像动画生成，为虚拟现实、游戏、人机交互等领域带来了新的可能性。

HunyuanPortrait的核心功能在于，它能够以单张肖像图片作为外观参考，并结合视频片段作为驱动模板，将驱动视频中的面部表情和头部姿势精准地转移到参考肖像上，从而生成自然流畅的动画。与现有方法相比，HunyuanPortrait在时间一致性和可控性方面表现出显著优势，能够有效解耦不同图像风格下的外观和运动，展现出强大的泛化性能。

技术解析：隐式控制与扩散模型的巧妙结合

HunyuanPortrait的技术原理主要体现在以下几个方面：

隐式条件控制： 采用隐式表示编码运动信息，能够更好地捕捉复杂的面部运动和表情变化，有效避免了因关键点提取不准确而导致的伪影和失真问题。编码后的运动信息作为控制信号，通过注意力机制注入到去噪 U-Net 中，实现了对动画生成过程的精细控制。
稳定的视频扩散模型： 基于扩散模型的框架，在潜在空间中进行扩散和去噪过程，显著提高了生成质量和训练效率。通过 VAE 将图像从 RGB 空间映射到潜在空间，并基于 UNet 进行去噪处理，最终生成高质量的视频帧。
增强的特征提取器： 通过估计运动强度（如面部表情的扭曲程度和头部运动的幅度）来增强运动特征的表示，从而提高对不同运动强度的适应能力。同时，结合 ArcFace 和 DiNOv2 背景，利用多尺度适配器（IMAdapter）增强肖像的身份一致性，确保生成的动画在不同帧中保持一致的身份特征。
训练和推理策略： 通过颜色抖动、姿态引导等技术增强训练数据的多样性，提高模型的泛化能力。此外，采用多种增强训练策略，如随机移除某些骨骼边缘，进一步提高了模型在不同输入条件下的稳定性。
注意力机制： 在 UNet 中引入多头自注意力和交叉注意力机制，增强模型对空间和时间信息的感知能力，从而提高生成视频的细节丰富度和时间一致性。

应用前景广阔，赋能多个领域

HunyuanPortrait的强大功能使其在多个领域具有广阔的应用前景：