北大字节联手，DiffSplat引爆3D生成！

北京 – 人工智能领域再添新星。北京大学与字节跳动联合推出了一款名为DiffSplat的创新3D生成框架，该框架能够根据文本提示或单视图图像，快速生成高质量的3D高斯点阵（Gaussian Splats）。这一突破性的技术，有望大幅提升3D内容创作的效率和可控性，为游戏开发、影视特效、虚拟现实等领域带来革命性的变革。

DiffSplat的核心优势在于其高效性和灵活性。与传统的3D建模方法相比，DiffSplat能够在短短1~2秒内生成高质量的3D对象，极大地缩短了开发周期。此外，该框架支持文本条件、图像条件或两者的组合输入，为用户提供了多样化的创作选择。

技术原理：2D先验与3D一致性的完美结合

DiffSplat的技术原理基于大规模预训练的文本到图像扩散模型。通过微调这些模型，DiffSplat能够有效利用网络规模的2D先验知识，并引入3D渲染损失来确保生成的3D内容在多视图下保持一致性。为了启动训练，DiffSplat还提出了一种轻量级的重建模型，该模型能够快速生成多视图高斯点阵网格，为可扩展的数据集构建提供了高质量的数据支持。

功能亮点：从文本到3D，从图像到3D，一切皆有可能

DiffSplat的主要功能包括：

从文本或图像生成3D高斯点阵： DiffSplat可以直接从文本提示或单视图图像生成3D高斯点阵，并保持3D一致性。
高效利用2D先验知识： 通过微调大规模文本到图像扩散模型，DiffSplat有效基于网络规模的2D先验知识，同时引入3D渲染损失确保生成内容在任意视图下的3D一致性。
支持多种条件输入： DiffSplat支持文本条件、图像条件或两者的组合输入，用户可以根据需要选择合适的条件。
可控生成能力： DiffSplat可以与ControlNet等技术结合，实现基于文本提示和多种格式（如法线图、深度图、Canny边缘图）的可控3D生成。

应用场景：无限可能，赋能各行各业

DiffSplat的应用场景十分广泛，包括：

3D内容创作： 适用于快速原型设计和内容创作。设计师可以用DiffSplat快速生成3D模型的初步版本，用于概念验证或进一步的精细调整。
文本到3D生成： DiffSplat在文本条件下的3D生成任务中表现出色，能根据详细的文本描述生成与之匹配的3D模型。
图像到3D重建： DiffSplat支持从单张图像生成3D模型，能准确反映输入图像的形状和纹理。从现有图像资源中快速生成3D模型，例如在影视特效、游戏开发等领域。
下游应用支持： DiffSplat的生成结果可以直接用于多种下游应用，如3D打印、虚拟现实（VR）和增强现实（AR）等领域。

项目信息：开放共享，共同进步

DiffSplat项目团队秉持开放共享的精神，公开了项目的相关信息，包括：

项目官网：https://chenguolin.github.io/projects/DiffSplat/
GitHub仓库：https://github.com/chenguolin/DiffSplat
arXiv技术论文：https://arxiv.org/pdf/2501.16764

展望未来：3D生成的普及化时代即将到来

DiffSplat的推出，标志着3D生成技术进入了一个新的阶段。其高效性、灵活性和可控性，将极大地降低3D内容创作的门槛，使得更多的人能够参与到3D世界的构建中来。随着DiffSplat的不断发展和完善，我们有理由相信，一个3D生成的普及化时代即将到来。

参考文献：

Chen, G., et al. (2024). DiffSplat: 3D Gaussian Splatting from Differentiable Rendering. arXiv preprint arXiv:2501.16764.
DiffSplat Project Website: https://chenguolin.github.io/projects/DiffSplat/
DiffSplat GitHub Repository: https://github.com/chenguolin/DiffSplat

>>> Read more <<<