news pappernews papper

摘要: 南洋理工大学与商汤科技联合推出 MatAnyone 视频抠图技术,该技术仅需在首帧指定抠图目标,即可实现稳定、高质量的视频人物抠像,达到发丝级细节还原。该技术有望在电影、游戏、短视频制作等领域带来革新。

新加坡,2024年4月17日 – 在人工智能领域备受瞩目的 CVPR 2025 大会上,一项由南洋理工大学 S-Lab 与商汤科技联合研发的视频抠图新技术——MatAnyone,预计将引发广泛关注。该技术突破了传统视频抠图的局限,实现了“目标指定型”的视频抠像,用户只需在视频的第一帧通过人物遮罩指定抠像目标,即可在整个视频中实现稳定、高质量的目标提取,并达到发丝级的细节还原。

这项研究的第一作者是南洋理工大学 MMLab@NTU 在读博士生杨沛青,项目由该校研究助理教授周尚辰和校长讲席教授吕建勤负责。相关论文已发布在 arXiv 预印本平台上(https://arxiv.org/abs/2501.14677),并提供了演示视频(https://youtu.be/oih0Zk-UW18)和代码(https://github.com/pq-yang/MatAnyone)。

视频抠图:精度与稳定性的挑战

视频人物抠像技术在电影、游戏、短视频制作和实时视频通讯等领域拥有巨大的应用潜力。然而,面对复杂背景和多目标干扰时,如何实现一套兼顾发丝级细节精度及分割级语义稳定的视频抠图系统,一直是该领域的难题。传统的视频抠图方法,根据是否需要额外辅助信息,可以分为两类:

  • 无辅助型方法: 用户只需上传视频,操作简便,但容易出现错抠、漏抠等问题,难以满足特定目标的抠像需求。
  • 辅助引导型方法: 需要用户提供额外的辅助信息,如三分掩膜或分割掩膜等,操作繁琐,效率较低。

MatAnyone 的出现,旨在解决以上问题,提供一种既兼顾用户可控性,又具有更强实用性和鲁棒性的解决方案。

MatAnyone 的核心亮点:

  • 快速抠图,目标可控: 仅需首帧目标指定,无需额外辅助信息,支持灵活定义抠图对象,满足多场景需求。
  • 稳定跟踪,全程不抖: 创新“区域自适应记忆融合”机制,有效保持目标一致性,实现长视频中的稳定人像跟踪。
  • 细节出众,发丝级还原: 融合真实分割数据与高质量新数据集,边界处理自然平滑,抠图效果更贴近真实。

记忆传播:视频抠图的新范式

MatAnyone 的核心在于其一致性记忆传播机制(Consistent Memory Propagation)。相比静态图像抠图,视频抠图需要确保前后帧之间的时序一致性,避免出现闪烁、跳变等视觉问题。MatAnyone 借鉴视频分割中的记忆机制,并在此基础上提出了专为视频抠图设计的记忆传播方法。

该机制通过“区域自适应融合记忆”的方式,在每一帧中预测哪些区域与上一帧差异较大(如身体边缘),哪些区域变化很小(如身体主干),并分别处理。对于变化幅度较大的区域,模型更依赖当前帧从记忆库中检索到的记忆信息;而对变化较小的区域,则更多保留上一帧的记忆信息,避免重复建模,减少误差传播。这种区域感知式的信息融合方式,在训练阶段引导模型更专注于细节边界,在推理阶段则提升了抠图的稳定性和精度。

MatAnyone 的潜在影响:

MatAnyone 的出现,有望推动视频抠图技术在各个领域的应用。例如:

  • 电影制作: 降低特效制作的成本和时间,提高制作效率。
  • 游戏开发: 快速生成高质量的游戏角色素材,提升游戏画面表现力。
  • 短视频制作: 简化视频编辑流程,让用户轻松创作出更具创意的视频内容。
  • 实时视频通讯: 实现更逼真的虚拟背景效果,提升视频通话体验。

结论:

MatAnyone 作为一种高效、稳定、实用的视频抠图新方法,不仅在技术上有所突破,更在应用场景上具有广阔的前景。期待在 CVPR 2025 大会上,MatAnyone 能够获得更多关注,并推动视频抠图技术的发展,为各行各业带来更多可能性。

参考文献:

  • Yang, P., Zhou, S., & Lu, J. (2025). MatAnyone: Stable Video Matting with Consistent Memory Propagation. arXiv preprint arXiv:2501.14677.

(完)


>>> Read more <<<

Views: 0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注