摘要: 香港中文大学(深圳)、字节跳动和清华大学的研究人员联合推出了一款名为Hi3DGen的创新3D几何生成框架。该框架能够从2D图像生成高保真3D模型,在游戏开发、影视制作、文物保护等领域具有广阔的应用前景。
北京 – 人工智能在3D内容生成领域正迎来新的突破。近日,香港中文大学(深圳)、字节跳动和清华大学的研究人员联合发布了Hi3DGen,一款旨在提升3D模型生成质量和效率的框架。该框架的核心优势在于其能够从2D图像中生成具有丰富细节的高保真3D模型,为各行各业带来了全新的可能性。
技术突破:法线图作为关键中间表示
Hi3DGen的核心技术在于其利用法线图作为中间表示。与以往的方法相比,Hi3DGen通过基于法线图的方法,能够生成更丰富的几何细节,从而显著提升3D模型的真实感和精细度。该框架主要包含三个关键组件:
- 图像到法线估计器: 该组件通过噪声注入和双流训练,将图像的低频和高频模式解耦。低频模式负责整体形状和结构,高频模式负责细节和纹理。这种方法能够生成可泛化、稳定且锐利的法线图,为后续的3D几何生成提供高质量的中间表示。
- 法线到几何学习方法: 该方法基于法线正则化的潜在扩散学习,增强了3D几何生成的保真度,使生成的3D模型能保留更多的细节。
- 3D数据合成管道: 通过3D数据合成管道,构建高质量的3D数据集,用于训练模型。支持模型学习从2D图像到3D几何的映射关系。
两阶段生成过程:精益求精
Hi3DGen采用两阶段生成过程,进一步提升了3D模型的质量:
- 基础多视角生成: 使用预训练的视频扩散模型,通过额外的相机姿态条件进行微调,将单视角图像转换为低分辨率的3D感知序列图像(轨道视频)。
- 3D感知多视角细化: 将第一阶段生成的低分辨率多视角图像输入到3D感知视频到视频细化器中,进一步提升图像的分辨率和纹理细节。
此外,该框架还利用3D高斯散射(3DGS)从生成的高分辨率多视角图像中学习隐式3D模型,并通过基于SDF(Signed Distance Function)的重建方法,从增强的密集视图中提取高质量的3D网格。
应用前景:赋能多个行业
Hi3DGen的出现,为多个行业带来了革新的潜力:
- 游戏开发: 快速生成高质量的3D游戏资产,如角色、道具和场景,大幅缩短开发周期。
- 影视制作: 用于创建逼真的3D特效和动画,节省传统建模的时间和成本。
- 3D可视化: 从不同角度查看和分析3D模型,适用于建筑设计、工业设计等领域。
- 虚拟摄影: 生成不同视角的高质量图像,用于在线展示和营销。
- 文物保护: 从文物的单张照片重建3D模型,用于数字化保存和研究。
- 医学成像: 从医学图像(如X光、CT)生成3D模型,辅助诊断和治疗。
项目信息:
结论:
Hi3DGen的发布标志着3D几何生成技术迈出了重要一步。其创新的技术方法和广泛的应用前景,预示着它将在未来的3D内容创作领域发挥越来越重要的作用。随着人工智能技术的不断发展,我们有理由期待更多类似Hi3DGen的创新成果,为各行各业带来更多的可能性。
参考文献:
- Hi3DGen项目官网: https://stable-x.github.io/Hi3DGen/
- Hi3DGen Github仓库: https://github.com/Stable-X/Hi3DGen
- AI工具集相关报道: https://www.example.com/ai-tools-report (假设性链接,用于展示参考文献格式)
Views: 16
