北京,2025年3月31日 – 在三维数字内容生产领域,高质量的三角形网格是构建虚拟资产的关键。然而,传统的三维网格生成方法面临着成本高昂、拓扑结构质量差等问题。近日,清华大学朱军团队推出了一项名为DeepMesh的创新技术,通过引入自回归生成框架,显著提升了高面片人造网格的生成能力,为影视、游戏和工业设计等领域带来了新的突破。
这项研究成果由清华大学人工智能研究院的朱军教授团队完成,论文的三位共同第一作者分别是:
- 赵若雯:清华大学一年级硕士生,研究方向为生成模型、强化学习和具身智能。
- 叶俊良:清华大学二年级硕士生,专注于3D生成和基于人类偏好的多模态强化学习。他曾以第一作者身份在ECCV发表DreamReward,该成果能生成更符合人类偏好的3D资产。
- 王征翊:清华大学四年级博士生,主要研究3D多模态生成模型,已在NeurIPS、ECCV、ICML、CVPR等顶级学术会议发表多篇论文。
DeepMesh方法的核心在于其创新的自回归生成框架。该框架能够生成高达3万个面片的三维网格,相比现有技术提升了一个数量级。这一突破性的进展,为高质量三维模型的设计和生成提供了新的可能性。
DeepMesh的技术原理
DeepMesh基于输入点云,采用自回归的Transformer架构逐步预测面片序列,从而生成拓扑结构合理且视觉美观的高质量三维网格。其主要技术特点包括:
- 自回归Transformer架构:通过融合自注意力与交叉注意力机制,逐步预测网格的顶点或面片序列,最终生成结构完整的高质量三维网格。
- 三级块结构网格标记化方法:在预训练阶段,根据面片之间的连通性对网格进行分解,并将其划分为粗、中、细多个空间层级。通过将面片中各顶点的坐标映射为相对于所属层级块的偏移索引,并对重复索引进行合并处理,该方法在确保几何精度的同时,显著压缩了序列长度,从而大幅提升了训练效率。
- 数据筛选与动态负载均衡:通过对训练数据进行封装处理,并引入融合几何质量与结构规整度的双重筛选机制,DeepMesh有效解决了异常样本引发的训练不稳定问题,同时实现了训练过程中的动态负载均衡。
- 滑动窗口截断训练技术:为突破长序列带来的内存瓶颈,模型采用了滑动窗口截断训练技术,支持单个网格生成高达3万个面片,显著提升了建模能力。
- 直接偏好优化(DPO)强化学习框架:DeepMesh创新性地引入了DPO强化学习框架,并构建了一个结合客观几何指标与主观人类评价的分阶段数据标注系统。通过几何质量指标筛除存在明显缺陷的3D样本,随后由人工对剩余数据进行标注,评估其拓扑结构的合理性与视觉观赏性。基于这套高质量的标注数据,团队对模型进行了强化训练,从而显著提升了生成结果在几何完整性与拓扑美观性方面的表现。
DeepMesh的优势与应用前景
DeepMesh在细节保真与结构多样性方面表现出色,并具备对传统生成方法所生成网格进行拓扑优化的能力。与现有方法相比,DeepMesh在几何精度与拓扑质量两个维度均实现最优性能,生成的三维网格不仅在结构合理性上表现卓越,也在视觉美观性上更具吸引力。
在多样性生成方面,DeepMesh能在保持输入点云几何一致性的前提下,对同一输入生成多种具有高保真度且外观风格各异的三维网格方案,展现出强大的创意生成与精度控制的能力。这一特性对于影视制作、游戏设计等需进行多版本快速迭代的应用场景具有显著价值。
此外,DeepMesh还可对传统方法(如TRELLIS)生成的拓扑结构混乱问题进行有效的拓扑优化,显著提升网格结构的有序性与合理性。
凭借在高保真、多样性与拓扑优化方面的突出表现,DeepMesh展现出在3D内容创作领域的颠覆性潜力,特别适用于数字游戏、虚拟现实、影视制作等对创意表达与建模效率要求极高的行业。
业界反响
该研究成果发布后迅速引发广泛关注,知名推特博主AK第一时间转发支持,相关内容获得上千点赞,引发业内与社群的热烈讨论与积极反馈。
论文与代码链接
- 论文标题:DeepMesh: Auto-Regressive Artist-mesh Creation with Reinforcement Learning
- 论文主页:https://zhaorw02.github.io/DeepMesh/
- 论文地址:https://arxiv.org/abs/2503.15265
- 代码:https://github.com/zhaorw02/DeepMesh
结论
清华大学朱军团队的DeepMesh方法,通过引入创新的自回归生成框架,有效解决了三维网格生成领域长期存在的瓶颈问题。该技术不仅提升了三维网格的生成质量和效率,也为数字内容创作领域带来了新的可能性。随着DeepMesh技术的不断发展和完善,我们有理由相信,它将在未来的影视、游戏和工业设计等领域发挥更加重要的作用。
Views: 13
