港科大、腾讯、清华联手发布ACTalker视频扩散框架

香港，2024年5月16日 – 在人工智能领域，虚拟人技术正以前所未有的速度发展。近日，香港科技大学联合腾讯、清华大学，共同推出了一款名为ACTalker的端到端视频扩散框架，旨在生成逼真且自然的说话人头部视频，为虚拟主播、远程会议、在线教育等多个领域带来革新。

ACTalker的核心优势在于其能够实现单信号或多信号控制，例如通过音频、表情等多种信号驱动视频生成。这意味着虚拟人物不仅能“听懂”你说什么，还能根据你的语气和表情做出相应的反应，极大地提升了互动性和真实感。

技术解析：并行Mamba结构与门控机制

ACTalker的技术原理颇为复杂，但其核心在于并行Mamba结构。该结构包含多个分支，每个分支利用不同的驱动信号控制特定的面部区域。这种设计使得不同模态的信号可以同时作用于视频生成过程，互不干扰，从而实现多信号控制。

此外，ACTalker还引入了门控机制，允许在训练时随机开启或关闭某些分支，在推理时则可以根据需要手动调整。这种灵活的控制方式为视频生成提供了更多可能性，用户可以根据实际需求选择使用单一信号或多种信号进行驱动。

为了确保视频在时间和空间上的自然协调，ACTalker还采用了状态空间建模（SSM）。该模型支持驱动信号在每个分支中跨时间和空间两个维度操控特征标记，从而实现自然的面部动作协调。

实验数据：CelebV-HQ数据集上的优异表现

在CelebV-HQ数据集上的实验结果表明，ACTalker在Sync-C和Sync-D分数上表现优异，分别为5.317和7.869，FVD-Inc分数为232.374。这些数据有力地证明了ACTalker在音频同步和视频质量方面的卓越性能。

应用场景：从虚拟主播到远程会议

ACTalker的应用前景十分广阔：

虚拟主播： ACTalker可以通过音频和面部表情等多种信号控制生成自然流畅的说话头视频，使虚拟主播更加生动逼真，更好地与观众互动，提升观众的观看体验。
远程会议： 在远程会议中，ACTalker可以用音频信号和参会者的表情信号生成自然的说话头视频，解决网络延迟导致的口型与声音不同步问题，甚至在视频信号不佳时，通过音频和表情信号生成自然的面部视频，增强远程交流的真实感。
在线教育： 在线教育场景中，教师可以用 ACTalker 生成自然的说话头视频，通过音频和表情信号的控制，使教学视频更加生动有趣，吸引学生的注意力，提高教学效果。
虚拟现实与增强现实： 在虚拟现实（VR）和增强现实（AR）应用中，ACTalker 可以生成与虚拟环境或增强现实场景相匹配的说话头视频。
娱乐与游戏： 在娱乐和游戏领域，ACTalker 可以为角色生成自然的说话头视频，增强角色的表现力和代入感。

行业展望：虚拟人技术的未来

ACTalker的推出，无疑为虚拟人技术的发展注入了新的活力。随着技术的不断进步，我们有理由相信，未来的虚拟人将更加智能、更加逼真，并在各个领域发挥更大的作用。

项目地址：

参考文献：

Harlanhong.github.io. (n.d.). ACTalker. Retrieved from https://harlanhong.github.io/publications/actalker
GitHub. (n.d.). harlanhong/ACTalker. Retrieved from https://github.com/harlanhong/ACTalker
Hugging Face. (n.d.). papers/2504.02542. Retrieved from https://huggingface.co/papers/2504.02542
arXiv.org. (n.d.). [2504.02542] ACTalker: Audio-Conditioned Talking Head Generation with Multi-Branch Mamba. Retrieved from https://arxiv.org/pdf/2504.02542

（完）

>>> Read more <<<