港科大、腾讯、清华联手发布ACTalker视频扩散框架

北京 – 在人工智能技术日新月异的今天，虚拟人的应用场景正变得越来越广泛。近日，香港科技大学联合腾讯、清华大学，共同推出了一款名为ACTalker的端到端视频扩散框架，旨在生成更加逼真、自然的说话人头部视频，为虚拟主播、远程会议、在线教育等领域带来新的可能性。

ACTalker的核心在于其能够通过单信号或多信号（如音频、表情等）驱动，生成与输入信号高度同步的面部视频。这意味着，虚拟人物不仅能“听懂”你说什么，还能根据你的语气和情感，做出相应的面部表情，从而实现更自然、更具表现力的交流。

技术创新：并行Mamba结构与门控机制

ACTalker的技术亮点在于其创新的并行Mamba结构。该结构包含多个分支，每个分支利用不同的驱动信号控制特定的面部区域。这种设计使得不同模态的信号可以同时作用于视频生成过程，互不干扰，从而实现多信号的精准控制。

此外，ACTalker还引入了门控机制，允许在训练时随机开启或关闭某些分支，在推理时则可以根据需要手动调整。这一机制为视频生成提供了灵活的控制方式，用户可以根据实际需求，选择使用单一信号或多种信号进行驱动。

为了进一步提升视频生成的质量，ACTalker还采用了掩码丢弃策略（Mask-Drop）。该策略支持每个驱动信号独立控制其对应的面部区域，通过在训练过程中随机丢弃与控制区域无关的特征标记，增强驱动信号的有效性，防止控制冲突。

性能卓越：CelebV-HQ数据集上的优异表现

为了验证ACTalker的性能，研究团队在CelebV-HQ数据集上进行了大量的实验。结果显示，ACTalker在音频同步和视频质量方面均表现出色，Sync-C和Sync-D分数分别达到5.317和7.869，FVD-Inc分数为232.374。这些数据表明，ACTalker生成的视频不仅在视觉上逼真，而且在音频同步方面也达到了很高的水平。

应用前景广阔：赋能多个领域

ACTalker的推出，无疑将为虚拟人技术的发展注入新的活力。其潜在的应用场景包括：