上海讯 – 在近日举行的世界人工智能大会上,腾讯正式发布并开源了其自主研发的混元3D世界模型1.0(Hunyuan World 1.0)。这款业界首个可沉浸漫游、可交互、可仿真的世界生成模型,标志着3D内容创作领域迈入了一个全新的阶段,为游戏开发、数字内容创作、物理仿真以及智能体开发等领域带来了革命性的变革。

混元3D世界模型1.0的核心优势在于其强大的生成能力和高度的灵活性。用户只需通过简单的文本描述或上传一张图片,即可在几分钟内生成一个360度沉浸式的三维场景。例如,输入“一个破旧的加油站,夜晚下着雨,远处有霓虹灯”,模型便能迅速构建出一个包含加油站主体、环境、天空光照、闪电等元素的完整空间。

沉浸式体验与高度可定制化

与传统的3D建模方式不同,混元3D世界模型1.0生成的场景不仅支持360度视角切换,还允许用户在场景中自由漫游,体验类似游戏或虚拟现实的交互感。用户可以通过WASD键控制角色走动,鼠标拖动切换视角,探索生成的虚拟世界。

更重要的是,该模型支持物理仿真与二次编辑。用户可以对前景物体进行选中、绑定骨骼或添加行为逻辑,也可以对天空、地形等元素进行替换或个性化渲染。生成的场景可以导出为标准的Mesh文件,无缝兼容Unity、Unreal Engine、Blender等主流工具,极大地拓展了其应用范围。

技术解析:语意层次化与扩散Transformer

混元3D世界模型1.0的技术核心在于其两阶段生成范式。首先,模型通过一个特制的3D感知变分自编码器(3D-aware VAE),将复杂的3D场景数据编码成低维度但信息量密集的潜在空间表征。随后,模型通过一个扩散模型(Diffusion Model),其骨干网络采用强大的Transformer架构(即Diffusion Transformer, DiT),从随机噪声潜在编码开始,在文本或图像提示的语义引导下,逐步将噪声雕琢成符合用户要求的3D世界潜在编码。

此外,模型采用的“语意层次化3D场景表征及生成算法”将复杂3D世界解构为前景、中景、远景等不同语意层级,实现智能分离,保证了生成场景的视觉效果逼真,并支持对场景内元素的独立编辑和物理仿真。

广泛的应用前景

混元3D世界模型1.0的应用场景十分广泛:

  • 游戏开发: 游戏开发者可以通过简单的文本指令或图片输入,快速生成包含建筑、地形、植被等元素的完整3D场景,大大缩短开发周期,降低开发成本。
  • 沉浸式视觉空间生成: 无建模经验的普通用户可以通过混元3D创作引擎,仅需一句话或一张图即可快速生成360°沉浸式视觉空间,为虚拟旅游、在线教育等领域带来新的可能性。
  • 数字内容创作: 模型支持文本和图片输入,能快速生成高质量、风格多样的可漫游3D场景,适用于动画制作、影视特效等领域,提升创作效率和艺术表现力。
  • 物理仿真支持: 模型生成的场景支持物理仿真,可用于具身智能仿真,帮助机器人或智能体在虚拟环境中进行训练,加速人工智能技术的落地应用。
  • 智能体开发: 支持零代码搭建Multi-Agent,新手小白也能快速上手,适用于构建复杂的智能体交互场景,推动智能体技术的普及。

开源共享,共建3D生态

腾讯此次开源混元3D世界模型1.0,无疑将加速3D内容创作领域的发展。通过开放源代码和模型,腾讯希望吸引更多的开发者和研究者参与到3D世界的构建中来,共同推动3D技术的创新和应用。

目前,混元3D世界模型1.0的项目地址已公开:

腾讯混元3D世界模型1.0的开源,不仅是腾讯在人工智能领域的一次重要突破,也为整个行业带来了新的机遇。我们有理由相信,在开源共享的理念下,3D内容创作的未来将更加精彩。


>>> Read more <<<

Views: 0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注