NVIDIA联手多伦多大学，GEN3C视频模型震撼发布！

摘要： NVIDIA联合多伦多大学和向量研究所推出了新型生成式视频模型GEN3C，该模型基于精确的相机控制和时空一致性，能够生成高质量的3D视频内容。GEN3C的出现，为视频创作、模拟和新型视图合成等领域带来了新的可能性。

正文：

人工智能（AI）领域正以惊人的速度发展，尤其是在图像和视频生成方面。近日，科技巨头NVIDIA与多伦多大学、向量研究所联合推出了一款名为GEN3C的生成式视频模型，再次引发了业界的广泛关注。这款模型以其精确的相机控制和时空一致性，为高质量3D视频内容的生成开辟了新的道路。

GEN3C：告别传统视频生成的不一致性

传统的视频生成方法往往缺乏对3D场景的显式建模，导致生成的视频在时空上存在不一致性，例如物体突然出现或消失等问题。GEN3C的创新之处在于，它构建了一个基于点云的3D缓存，作为视频生成的基础。具体来说，该模型首先通过输入图像或视频帧的深度估计反投影生成3D场景，形成时空一致的3D缓存。然后，根据用户提供的相机轨迹，将3D缓存渲染成2D视频，并将其作为生成模型的条件输入。

这种方法的核心优势在于，它能够精确控制相机运动，从而避免传统方法中因缺乏显式3D建模而导致的不一致性问题。GEN3C不仅支持从单视角到多视角的视频生成，还适用于静态和动态场景，并在稀疏视图的新型视图合成任务中取得了最先进的结果。

GEN3C的主要功能：赋能视频创作与模拟

GEN3C的功能十分强大，可以应用于多个领域：

精确的相机控制： 用户可以根据指定的相机轨迹生成视频，支持推拉镜头、旋转镜头等复杂的相机运动，并保持视频的时空一致性。
3D一致性视频生成： 生成具有真实感和一致性的视频，避免物体突然出现或消失等问题。
多视角和稀疏视角的新型视图合成： 支持从单视角、稀疏多视角到密集多视角的输入，生成高质量的新型视图视频，这在VR/AR和3D重建领域具有重要意义。
3D编辑和场景操作： 用户可以通过修改3D点云（如删除或添加物体）来编辑场景，并生成相应的视频，这为影视制作和游戏开发提供了强大的工具。
长视频生成： 支持生成长视频，同时保持时空一致性。

GEN3C的技术原理：构建3D缓存与多视角融合

GEN3C的技术原理主要包括以下几个方面：

构建3D缓存： 通过输入图像或视频帧的深度估计反投影生成3D点云，形成时空一致的3D缓存。
渲染3D缓存： 根据用户提供的相机轨迹，将3D缓存渲染成2D视频。
视频生成： 使用预训练的视频扩散模型（如Stable Video Diffusion或Cosmos），将渲染的3D缓存作为条件输入，生成高质量的视频。
多视角融合： 当输入包含多个视角时，GEN3C基于最大池化的融合策略，将不同视角的信息聚合到视频生成模型中，生成一致的视频。
自回归生成和缓存更新： 对于长视频生成，GEN3C将视频分为多个重叠的块，逐块生成，并更新3D缓存，以保持视频的时空一致性。

GEN3C的应用场景：从单视角视频生成到驾驶模拟

GEN3C的应用场景非常广泛，包括：

单视角视频生成： 从一张图片生成动态视频，适用于快速内容创作。
新型视图合成： 从少量视角生成新视角视频，用于VR/AR和3D重建。
驾驶模拟： 生成驾驶场景的不同视角视频，助力自动驾驶训练。
动态视频重渲染： 为已有视频生成新视角，用于视频编辑和二次创作。
3D场景编辑： 修改场景内容后生成新视频，助力影视制作和游戏开发。

结论与展望

GEN3C的推出，无疑是生成式视频模型领域的一项重要突破。它通过精确的相机控制和时空一致性，解决了传统方法中存在的不一致性问题，为高质量3D视频内容的生成提供了新的解决方案。随着技术的不断发展，GEN3C有望在视频创作、模拟、VR/AR等领域发挥更大的作用，为人们带来更加丰富和逼真的视觉体验。

参考文献：

GEN3C官方网站: https://research.nvidia.com/labs/toronto-ai/GEN3C/
GEN3C GitHub仓库: https://github.com/nv-tlabs/GEN3C
GEN3C arXiv技术论文: https://arxiv.org/pdf/2503.03751

（注：由于arXiv链接为假设链接，请在实际发布时替换为真实链接）

>>> Read more <<<

一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

NVIDIA联手多伦多大学，GEN3C视频模型震撼发布！

作者智能小编

GEN3C：告别传统视频生成的不一致性

GEN3C的主要功能：赋能视频创作与模拟

GEN3C的技术原理：构建3D缓存与多视角融合

GEN3C的应用场景：从单视角视频生成到驾驶模拟

结论与展望

相关文章

永新光学 (603297.SH) ：国产替代与新兴业务驱动下的价值重估

来伊份：转型阵痛中的价值重塑与未来突围

北方稀土 (600111.SH): 战略核心资产的价值重估——迎接“戴维斯双击”

发表回复取消回复

为您推荐

永新光学 (603297.SH) ：国产替代与新兴业务驱动下的价值重估

来伊份：转型阵痛中的价值重塑与未来突围

北方稀土 (600111.SH): 战略核心资产的价值重估——迎接“戴维斯双击”

国之重器，芯之所向：新周期与大国博弈下的中芯国际(688981.SH)价值重估

作者智能小编

GEN3C：告别传统视频生成的不一致性

GEN3C的主要功能：赋能视频创作与模拟

GEN3C的技术原理：构建3D缓存与多视角融合

GEN3C的应用场景：从单视角视频生成到驾驶模拟

结论与展望

相关文章

发表回复 取消回复

为您推荐

发表回复取消回复