NEWS 新闻NEWS 新闻

摘要: NVIDIA联合多伦多大学和向量研究所推出了新型生成式视频模型GEN3C,该模型基于精确的相机控制和时空一致性,能够生成高质量的3D视频内容。GEN3C的出现,为视频创作、模拟和新型视图合成等领域带来了新的可能性。

正文:

人工智能(AI)领域正以惊人的速度发展,尤其是在图像和视频生成方面。近日,科技巨头NVIDIA与多伦多大学、向量研究所联合推出了一款名为GEN3C的生成式视频模型,再次引发了业界的广泛关注。这款模型以其精确的相机控制和时空一致性,为高质量3D视频内容的生成开辟了新的道路。

GEN3C:告别传统视频生成的不一致性

传统的视频生成方法往往缺乏对3D场景的显式建模,导致生成的视频在时空上存在不一致性,例如物体突然出现或消失等问题。GEN3C的创新之处在于,它构建了一个基于点云的3D缓存,作为视频生成的基础。具体来说,该模型首先通过输入图像或视频帧的深度估计反投影生成3D场景,形成时空一致的3D缓存。然后,根据用户提供的相机轨迹,将3D缓存渲染成2D视频,并将其作为生成模型的条件输入。

这种方法的核心优势在于,它能够精确控制相机运动,从而避免传统方法中因缺乏显式3D建模而导致的不一致性问题。GEN3C不仅支持从单视角到多视角的视频生成,还适用于静态和动态场景,并在稀疏视图的新型视图合成任务中取得了最先进的结果。

GEN3C的主要功能:赋能视频创作与模拟

GEN3C的功能十分强大,可以应用于多个领域:

  • 精确的相机控制: 用户可以根据指定的相机轨迹生成视频,支持推拉镜头、旋转镜头等复杂的相机运动,并保持视频的时空一致性。
  • 3D一致性视频生成: 生成具有真实感和一致性的视频,避免物体突然出现或消失等问题。
  • 多视角和稀疏视角的新型视图合成: 支持从单视角、稀疏多视角到密集多视角的输入,生成高质量的新型视图视频,这在VR/AR和3D重建领域具有重要意义。
  • 3D编辑和场景操作: 用户可以通过修改3D点云(如删除或添加物体)来编辑场景,并生成相应的视频,这为影视制作和游戏开发提供了强大的工具。
  • 长视频生成: 支持生成长视频,同时保持时空一致性。

GEN3C的技术原理:构建3D缓存与多视角融合

GEN3C的技术原理主要包括以下几个方面:

  1. 构建3D缓存: 通过输入图像或视频帧的深度估计反投影生成3D点云,形成时空一致的3D缓存。
  2. 渲染3D缓存: 根据用户提供的相机轨迹,将3D缓存渲染成2D视频。
  3. 视频生成: 使用预训练的视频扩散模型(如Stable Video Diffusion或Cosmos),将渲染的3D缓存作为条件输入,生成高质量的视频。
  4. 多视角融合: 当输入包含多个视角时,GEN3C基于最大池化的融合策略,将不同视角的信息聚合到视频生成模型中,生成一致的视频。
  5. 自回归生成和缓存更新: 对于长视频生成,GEN3C将视频分为多个重叠的块,逐块生成,并更新3D缓存,以保持视频的时空一致性。

GEN3C的应用场景:从单视角视频生成到驾驶模拟

GEN3C的应用场景非常广泛,包括:

  • 单视角视频生成: 从一张图片生成动态视频,适用于快速内容创作。
  • 新型视图合成: 从少量视角生成新视角视频,用于VR/AR和3D重建。
  • 驾驶模拟: 生成驾驶场景的不同视角视频,助力自动驾驶训练。
  • 动态视频重渲染: 为已有视频生成新视角,用于视频编辑和二次创作。
  • 3D场景编辑: 修改场景内容后生成新视频,助力影视制作和游戏开发。

结论与展望

GEN3C的推出,无疑是生成式视频模型领域的一项重要突破。它通过精确的相机控制和时空一致性,解决了传统方法中存在的不一致性问题,为高质量3D视频内容的生成提供了新的解决方案。随着技术的不断发展,GEN3C有望在视频创作、模拟、VR/AR等领域发挥更大的作用,为人们带来更加丰富和逼真的视觉体验。

参考文献:

(注:由于arXiv链接为假设链接,请在实际发布时替换为真实链接)


>>> Read more <<<

Views: 2

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注