上海,2025年2月20日 – 在数字化时代,视频内容创作需求呈爆炸式增长。然而,视频重打光这一关键技术长期以来面临着高昂的训练成本和数据稀缺的挑战。近日,上海交通大学与上海人工智能实验室联合发布了 Light-A-Video 技术,为视频重打光带来了革命性的突破。该技术无需训练,即可实现高质量、时序一致的视频重打光,为视频编辑领域注入了新的活力。

这项研究成果已发表在 arXiv 预印本平台,论文地址为:https://arxiv.org/abs/2502.08590。项目主页:https://bujiazi.github.io/light-a-video.github.io/,代码已开源:https://github.com/bcmi/Light-A-Video

零样本重打光:Light-A-Video的核心优势

Light-A-Video 的核心创新在于其无需训练的特性。它巧妙地利用了预训练的图像重打光模型(如 IC-Light)和视频扩散模型(如 AnimateDiff 和 CogVideoX),通过两个关键模块:Consistent Light Attention (CLA) 和 Progressive Light Fusion (PLF),实现了对视频序列的零样本光照控制。

具体而言,Light-A-Video 的优势体现在以下几个方面:

  • 高效性: 无需训练,直接利用预训练模型,显著降低了视频重打光的成本和时间。
  • 一致性: CLA 模块增强了跨帧交互,稳定了背景光源的生成,有效减少了光照不一致导致的闪烁问题。
  • 灵活性: 不仅支持完整视频的重打光,还支持前景序列的重打光,并能生成与文字描述相符的背景。同时,该技术与多种流行的视频生成框架兼容,具有广泛的适用性。

CLA + PLF:光照一致性的双重保障

CLA 和 PLF 是 Light-A-Video 的两大核心技术支柱。

CLA 模块通过增强自注意力层中的跨帧交互,稳定背景光照源的生成。它采用双重注意力融合策略,既保留了原始帧的高频细节,又通过时间维度的平均处理,减少了光照源的高频抖动,从而实现了稳定的光照效果。

PLF 策略则基于光传输理论的光照线性融合特性,通过渐进式混合的方式,将重打光外观与原始视频外观进行融合。在视频扩散模型的去噪过程中,PLF 策略逐步引导视频向目标光照方向过渡,确保了时间连贯性。

技术架构:渐进式光照融合

Light-A-Video 的整体架构设计精巧:

  1. 利用视频扩散模型的时序先验,对原始视频进行加噪和去噪处理。
  2. 利用 CLA 模块对输入图片进行逐帧重打光,实现稳定的背景光源生成。
  3. 通过 PLF 策略,将重打光目标与原始视频细节进行渐进式融合,引导生成单步的重打光结果。

通过这种渐进式的光照融合,Light-A-Video 最终能够获得时序稳定且光照一致的重打光视频。

实验验证:高质量与时间连贯性

为了验证 Light-A-Video 的有效性,研究团队在 DAVIS 和 Pixabay 公开数据集上进行了测试。实验结果表明,Light-A-Video 在多个评估指标上均优于现有的基准方法,尤其在动作保留方面表现出色。该方法在保证原视频外观内容的基础上,实现了高质量的重打光效果。

结语:视频编辑的未来

Light-A-Video 的问世,标志着视频重打光技术进入了一个新的阶段。它不仅解决了传统方法面临的训练成本高和数据稀缺的问题,还实现了高质量、时序一致的重打光效果。可以预见,Light-A-Video 将在电影制作、社交媒体、游戏开发等领域得到广泛应用,为视频内容的创作和编辑带来革命性的变革。

该研究的第一作者,上海交通大学二年级博士生周彧杰表示,未来团队将继续探索 Light-A-Video 的应用潜力,并致力于开发更加智能、高效的视频编辑工具,为用户提供更加优质的视频创作体验。

参考资料:


>>> Read more <<<

Views: 0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注