北京 – 2月14日,中国人工智能企业昆仑万维正式发布Matrix-Zero世界模型,标志着中国在空间智能领域迈出了重要一步。该模型包含3D场景生成和可交互视频生成两大子模型,旨在革新内容生产方式,提升创作效率,并为具身智能、影视制作、游戏娱乐等领域带来颠覆性变革。
3D场景生成:从图片到沉浸式体验
Matrix-Zero的3D场景生成模型能够将用户输入的图片转化为全局一致、可自由探索的3D场景。与现有主要聚焦于单个物体生成的3D AIGC工具不同,Matrix-Zero能够构建完整且合理的3D场景,并支持不同风格的输入和动态效果的生成。
昆仑万维自研的3D场景生成大模型具备以下亮点:
- 全局一致性: 生成的3D场景在360度环视后保持不变,避免了生成结果前后不一致的问题。
- 可自由探索: 支持在场景中进行任意方向的长距离、大范围探索,为电影/短剧场景镜头生成提供了更多可能性。
- 风格迁移: 无论是卡通风格还是写实风格的图片,Matrix-Zero均可生成合理的3D场景,并支持同一张输入图片生成不同风格的场景。
- 动态场景生成: 能够生成光照效果、水花动态、云雾动态等动态场景,且动态符合物理规律。
可交互视频生成:用户驱动的沉浸式体验
Matrix-Zero的可交互视频生成模型提供以用户输入为核心驱动的可交互空间智能视频生成方案。该模型支持根据用户实时输入生成互动视频效果,具备更精准控制的action model。
该模型的核心在于用户输入交互模块,该模块能够解析用户输入信息,并将其转化为视频调整信号,以确保视频内容能够准确响应用户操作。该模块包含以下几个关键部分:
- 离散运动控制模块: 解析用户输入的前进、跳跃、后退等基本运动指令,并将其转化为对应的运动轨迹。
- 连续视角控制模块: 解析用户输入的视角变化、方向调整等动态操作,并对视频内容进行相应调整。
- 3D场景位置追踪模块: 基于三维空间定位技术,提升视角移动时的位置稳定性。
- 滑动窗口机制: 引入时间序列中的历史输入信息,使系统能够更准确地预测用户的下一步操作,并优化控制响应的平滑度。
空间智能:数字时代的未来
空间智能融合了视频生成、三维建模等多种技术,实现对物理空间的数字化重建。其核心目标是将二维图像转换为可交互的三维场景,为用户提供更加自然、直观和沉浸式的体验。
昆仑万维表示,Matrix-Zero的发布是其在人工智能领域自主研发的又一重要成果。未来,昆仑万维将继续深耕空间智能领域,推动相关技术在具身智能、影视制作、游戏娱乐等领域的应用,为用户带来更加丰富多彩的数字体验。
参考文献
- 昆仑万维集团. (2024, February 14). 昆仑万维发布Matrix-Zero世界模型,开启空间智能新时代. Retrieved from https://www.kunlun.com/ (请替换为实际链接)
Views: 3