北京 – 在人工智能技术日新月异的今天,虚拟人的应用场景正变得越来越广泛。近日,香港科技大学联合腾讯、清华大学,共同推出了一款名为ACTalker的端到端视频扩散框架,旨在生成更加逼真、自然的说话人头部视频,为虚拟主播、远程会议、在线教育等领域带来新的可能性。

ACTalker的核心在于其能够通过单信号或多信号(如音频、表情等)驱动,生成与输入信号高度同步的面部视频。这意味着,虚拟人物不仅能“听懂”你说什么,还能根据你的语气和情感,做出相应的面部表情,从而实现更自然、更具表现力的交流。

技术创新:并行Mamba结构与门控机制

ACTalker的技术亮点在于其创新的并行Mamba结构。该结构包含多个分支,每个分支利用不同的驱动信号控制特定的面部区域。这种设计使得不同模态的信号可以同时作用于视频生成过程,互不干扰,从而实现多信号的精准控制。

此外,ACTalker还引入了门控机制,允许在训练时随机开启或关闭某些分支,在推理时则可以根据需要手动调整。这一机制为视频生成提供了灵活的控制方式,用户可以根据实际需求,选择使用单一信号或多种信号进行驱动。

为了进一步提升视频生成的质量,ACTalker还采用了掩码丢弃策略(Mask-Drop)。该策略支持每个驱动信号独立控制其对应的面部区域,通过在训练过程中随机丢弃与控制区域无关的特征标记,增强驱动信号的有效性,防止控制冲突。

性能卓越:CelebV-HQ数据集上的优异表现

为了验证ACTalker的性能,研究团队在CelebV-HQ数据集上进行了大量的实验。结果显示,ACTalker在音频同步和视频质量方面均表现出色,Sync-C和Sync-D分数分别达到5.317和7.869,FVD-Inc分数为232.374。这些数据表明,ACTalker生成的视频不仅在视觉上逼真,而且在音频同步方面也达到了很高的水平。

应用前景广阔:赋能多个领域

ACTalker的推出,无疑将为虚拟人技术的发展注入新的活力。其潜在的应用场景包括:

  • 虚拟主播: 通过音频和面部表情等多种信号控制生成自然流畅的说话头视频,使虚拟主播更加生动逼真,更好地与观众互动。
  • 远程会议: 解决网络延迟导致的口型与声音不同步问题,增强远程交流的真实感。
  • 在线教育: 使教学视频更加生动有趣,吸引学生的注意力,提高教学效果。
  • 虚拟现实与增强现实: 生成与虚拟环境或增强现实场景相匹配的说话头视频,提升用户体验。
  • 娱乐与游戏: 为角色生成自然的说话头视频,增强角色的表现力和代入感。

项目链接:

结语:

ACTalker的发布,是人工智能领域在视频生成技术上的又一次重要突破。它不仅展示了中国科研团队在AI领域的创新实力,也为虚拟人技术的未来发展指明了方向。随着技术的不断成熟和应用场景的不断拓展,我们有理由相信,ACTalker将在未来的虚拟世界中扮演越来越重要的角色。

参考文献:

希望这篇新闻稿符合您的要求!


>>> Read more <<<

Views: 0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注