北京 – 在人工智能技术日新月异的今天,虚拟人的应用场景正变得越来越广泛。近日,香港科技大学联合腾讯、清华大学,共同推出了一款名为ACTalker的端到端视频扩散框架,旨在生成更加逼真、自然的说话人头部视频,为虚拟主播、远程会议、在线教育等领域带来新的可能性。
ACTalker的核心在于其能够通过单信号或多信号(如音频、表情等)驱动,生成与输入信号高度同步的面部视频。这意味着,虚拟人物不仅能“听懂”你说什么,还能根据你的语气和情感,做出相应的面部表情,从而实现更自然、更具表现力的交流。
技术创新:并行Mamba结构与门控机制
ACTalker的技术亮点在于其创新的并行Mamba结构。该结构包含多个分支,每个分支利用不同的驱动信号控制特定的面部区域。这种设计使得不同模态的信号可以同时作用于视频生成过程,互不干扰,从而实现多信号的精准控制。
此外,ACTalker还引入了门控机制,允许在训练时随机开启或关闭某些分支,在推理时则可以根据需要手动调整。这一机制为视频生成提供了灵活的控制方式,用户可以根据实际需求,选择使用单一信号或多种信号进行驱动。
为了进一步提升视频生成的质量,ACTalker还采用了掩码丢弃策略(Mask-Drop)。该策略支持每个驱动信号独立控制其对应的面部区域,通过在训练过程中随机丢弃与控制区域无关的特征标记,增强驱动信号的有效性,防止控制冲突。
性能卓越:CelebV-HQ数据集上的优异表现
为了验证ACTalker的性能,研究团队在CelebV-HQ数据集上进行了大量的实验。结果显示,ACTalker在音频同步和视频质量方面均表现出色,Sync-C和Sync-D分数分别达到5.317和7.869,FVD-Inc分数为232.374。这些数据表明,ACTalker生成的视频不仅在视觉上逼真,而且在音频同步方面也达到了很高的水平。
应用前景广阔:赋能多个领域
ACTalker的推出,无疑将为虚拟人技术的发展注入新的活力。其潜在的应用场景包括:
- 虚拟主播: 通过音频和面部表情等多种信号控制生成自然流畅的说话头视频,使虚拟主播更加生动逼真,更好地与观众互动。
- 远程会议: 解决网络延迟导致的口型与声音不同步问题,增强远程交流的真实感。
- 在线教育: 使教学视频更加生动有趣,吸引学生的注意力,提高教学效果。
- 虚拟现实与增强现实: 生成与虚拟环境或增强现实场景相匹配的说话头视频,提升用户体验。
- 娱乐与游戏: 为角色生成自然的说话头视频,增强角色的表现力和代入感。
项目链接:
- 项目官网:https://harlanhong.github.io/publications/actalker
- Github仓库:https://github.com/harlanhong/ACTalker
- HuggingFace模型库:https://huggingface.co/papers/2504.02542
- arXiv技术论文:https://arxiv.org/pdf/2504.02542
结语:
ACTalker的发布,是人工智能领域在视频生成技术上的又一次重要突破。它不仅展示了中国科研团队在AI领域的创新实力,也为虚拟人技术的未来发展指明了方向。随着技术的不断成熟和应用场景的不断拓展,我们有理由相信,ACTalker将在未来的虚拟世界中扮演越来越重要的角色。
参考文献:
- Harlanhong.github.io. (n.d.). ACTalker. Retrieved from https://harlanhong.github.io/publications/actalker
- GitHub. (n.d.). ACTalker. Retrieved from https://github.com/harlanhong/ACTalker
- Hugging Face. (n.d.). ACTalker. Retrieved from https://huggingface.co/papers/2504.02542
- arXiv.org. (n.d.). ACTalker. Retrieved from https://arxiv.org/pdf/2504.02542
希望这篇新闻稿符合您的要求!
Views: 0