北京时间[当前日期]讯 – 阿里巴巴通义实验室近日宣布开源其最新研究成果——LHM (Large Animatable Human Reconstruction Model),一款能够从单张图像快速重建可动画3D人体模型的AI工具。这一突破性技术有望革新VR/AR、游戏开发、影视制作等多个领域的内容创作方式,为用户带来前所未有的便捷和高效。
LHM的核心优势在于其快速重建能力。传统3D建模往往需要耗费大量时间和人力,而LHM能够在短短几秒内将单张2D图像转化为高质量的可动画3D模型,极大地缩短了开发周期。此外,LHM在细节保留方面表现出色,能够精准捕捉服装纹理、面部特征等关键信息,确保生成的3D模型高度逼真。更重要的是,LHM支持基于姿态控制的实时动画渲染,使得生成的模型能够流畅地响应用户的动作,为沉浸式应用提供了强大的支持。
技术解析:多模态Transformer与3D高斯点云
LHM的强大功能得益于其独特的技术架构。该模型基于多模态Transformer架构,巧妙地融合了3D几何特征(从SMPL-X模板采样)和2D图像特征(从预训练的视觉Transformer提取)。这种融合方式能够有效处理几何和视觉信息,从而生成更准确、更逼真的3D模型。
为了进一步提升面部细节的恢复能力,LHM还采用了头部特征金字塔编码方案,聚合不同层次的特征,从而增强面部细节的重建效果。
在3D模型表示方面,LHM选择了3D高斯点云 (Gaussian Splatting)。相比于传统的网格模型,高斯点云能够更好地支持实时、高质量的渲染。网络直接预测高斯点云的参数(如位置、旋转、缩放、颜色等),实现了从输入图像到3D模型的快速转换。
此外,LHM还采用了自监督学习方法,基于大规模视频数据进行训练,并通过渲染损失和正则化项优化模型。这种方法无需依赖稀缺的3D扫描数据,大大降低了训练成本。为了保证3D模型的几何合理性,LHM还在训练过程中引入了“尽可能接近”和“尽可能接近球形”的正则化项。
LHM的实时动画功能同样令人印象深刻。该模型基于SMPL-X骨架参数将重建的3D模型变形到目标姿态,实现了实时姿态控制动画。整个重建和动画化过程在单次前向传播中完成,非常适合实时应用。
应用前景:VR/AR、游戏、影视、教育,潜力无限
LHM的开源无疑将推动各个领域的发展。
- 虚拟现实(VR)和增强现实(AR):LHM能够快速将照片转化为可动画化的3D虚拟角色,增强沉浸感和交互性,为用户带来更加逼真的虚拟体验。
- 游戏开发:LHM可以快速生成高质量3D角色模型,支持实时动画,从而提升开发效率和游戏体验,降低游戏制作成本。
- 影视制作:LHM可以用于特效制作和动画电影,快速生成角色模型,提升制作效率和质量,为影视行业带来新的可能性。
- 社交媒体和内容创作:用户可以生成3D虚拟形象用于社交媒体,创作者可以快速生成3D角色用于短视频等,丰富社交互动和内容形式。
- 教育和培训:LHM可以创建虚拟教师或助教用于在线教育,生成3D模型用于医疗、军事等领域的模拟训练,提升教学效果和培训质量。
开源地址及体验方式
目前,LHM已在GitHub上开源,并提供在线体验Demo,方便开发者和用户进行测试和使用。
- 项目官网: https://lingtengqiu.github.io/LHM/
- GitHub仓库: https://github.com/aigc3d/LHM
- arXiv技术论文: https://arxiv.org/pdf/2503.10625
- 在线体验Demo: https://huggingface.co/spaces/DyrusQZ/LHM
结语
LHM的开源标志着3D人体建模技术迈向了一个新的阶段。其快速、高效、高保真的特点,以及广泛的应用前景,预示着它将在未来的数字内容创作领域发挥重要作用。我们期待LHM能够激发更多的创新,为用户带来更加丰富多彩的数字体验。
参考文献
- LHM项目官网:https://lingtengqiu.github.io/LHM/
- LHM GitHub仓库:https://github.com/aigc3d/LHM
- LHM arXiv技术论文:https://arxiv.org/pdf/2503.10625
- LHM 在线体验Demo:https://huggingface.co/spaces/DyrusQZ/LHM
Views: 0