Meta推出VideoJAM，视频生成迎来新突破！

旧金山—— 在人工智能视频生成领域，Meta公司近日发布了一项名为VideoJAM的创新框架，旨在显著提升生成视频的运动连贯性。这项技术通过让模型在训练阶段同时学习预测视频的像素和运动信息，并在推理阶段利用模型自身的运动预测作为动态引导信号，从而生成更加自然流畅的视频内容。

VideoJAM的推出，无疑为解决当前视频生成技术中普遍存在的运动不连贯、画面扭曲等问题提供了一种全新的思路。

VideoJAM：不仅仅是“看起来像”

长期以来，AI视频生成技术主要关注如何生成逼真的视觉效果，但往往忽略了视频中运动的合理性和连贯性。这导致生成的视频虽然在静态画面上足够精美，但在动态表现上却显得生硬和不自然。VideoJAM的出现，正是为了弥补这一短板。

VideoJAM的核心在于引入了“联合外观-运动表示”的概念。这意味着在训练过程中，模型不仅要学习预测视频的像素信息（即“外观”），还要学习预测视频的运动信息，例如光流。通过这种方式，模型能够更好地理解视频中物体运动的规律，从而生成更符合物理规律的运动效果。

具体来说，VideoJAM在训练目标中加入了运动预测，并在推理时采用了名为“Inner-Guidance”的动态引导机制。这种机制利用模型自身不断演化的运动预测作为引导信号，确保生成的视频在运动上更加合理和连贯。

技术细节：光流与动态引导

为了实现上述目标，VideoJAM在技术上做了以下几点创新：

联合外观-运动表示： 在模型的输入端添加一个线性层，将视频和运动信息合并为一个联合表示；在输出端添加另一个线性层，从联合表示中提取运动预测。目标函数也被修改为同时优化外观和运动的预测。
运动表示： 使用光流作为运动表示，将光流转换为RGB视频，以便模型能够处理运动信息。光流是一种描述图像中像素点运动轨迹的技术，能够有效地捕捉视频中的运动信息。
动态引导机制（Inner-Guidance）： 在生成视频时，VideoJAM利用模型自身不断演化的运动预测作为动态引导信号。基于修改采样分布，引导生成过程朝着连贯运动的方向发展。

广泛的应用前景

VideoJAM的通用性是其另一大亮点。Meta表示，VideoJAM可以应用于任何视频生成模型，无需修改训练数据或扩大模型规模。这意味着现有的视频生成技术可以很容易地集成VideoJAM，从而提升生成视频的质量。

VideoJAM的应用场景非常广泛，包括：