“`markdown

无编码器架构潜力或被低估?首个无编码器3D多模态LLM大模型ENEL问世

摘要: 近日,上海人工智能实验室等机构的研究者联合发布了首个无编码器架构的3D大型多模态模型ENEL。该模型在性能上与当前最先进的ShapeLLM-13B模型相媲美,引发了业界对于无编码器架构在3D多模态学习领域潜力的重新审视。

上海,中国 – 在人工智能领域,大型多模态模型(LMMs)正逐渐成为研究的热点。这些模型旨在赋予大型语言模型(LLMs)解读多种模态信息的能力,例如2D图像和3D点云。然而,传统LMMs往往依赖于计算量巨大的多模态编码器,这在一定程度上限制了模型的发展和应用。

针对这一问题,来自上海人工智能实验室、西北工业大学、香港中文大学和清华大学的研究团队,在最新研究中探索了无编码器架构在3D LMMs中的潜力。他们的研究成果——首个无编码器架构的3D LMM,被命名为ENEL。

该研究的第一作者汤轶文,本科毕业于上海科技大学,师从李学龙教授,并在上海人工智能实验室实习。他的研究兴趣广泛,涵盖3D视觉、大模型高效迁移、多模态大模型和具身智能等领域。

传统架构的挑战

主流的LMM通常依赖于强大的多模态编码器,例如2D图像领域的CLIP和3D点云领域的I2P-MAE。这些预训练编码器虽然能够提供强大的多模态嵌入和丰富的预先存在知识,但也带来了一些挑战:

  • 点云分辨率限制: 3D编码器通常在固定分辨率的点云数据上进行预训练,这导致模型在处理不同分辨率的输入时性能下降。
  • 嵌入语义差异: 3D编码器和大语言模型的训练分离,使得编码器提取的点云特征可能无法满足大语言模型的语义需求。

ENEL:无编码器架构的突破

为了克服上述挑战,研究团队将3D编码器的功能直接整合到LLM本身,从而避免了对传统编码器的依赖。ENEL模型的亮点在于:

  • 性能媲美先进模型: ENEL的7B模型与当前最先进的ShapeLLM-13B模型在性能上不相上下,证明了无编码器架构的巨大潜力。
  • 对点云分辨率更具鲁棒性: 相比于基于编码器的模型,ENEL在处理不同分辨率的点云输入时表现出更强的鲁棒性。
  • 更契合LLM语义需求: ENEL架构中的文本token更能关注到点云物体的关键部位,例如椅子的椅脚和飞机的机翼。

技术方案:弥补语义鸿沟,整合归纳偏置

在无编码器结构的探索中,研究团队主要关注以下两个问题:

  1. 如何弥补3D编码器最初提取的高层次3D语义?
  2. 如何将归纳偏置整合到LLM中,以便更好地感知3D几何结构?

为了解决这些问题,研究团队提出了一种混合语义损失(Hybrid Semantic Loss)。该损失函数结合了掩蔽建模和重建策略,能够有效地将高层次的语义信息嵌入到LLM中。

未来展望

ENEL的成功发布,为3D多模态学习领域带来了新的思路。无编码器架构不仅能够降低计算成本,还能提高模型对不同数据模态的适应性。随着研究的深入,我们有理由相信,无编码器架构将在未来的多模态学习中发挥更加重要的作用。

论文信息:

参考文献:

  • 汤轶文 et al. Exploring the Potential of Encoder-free Architectures in 3D LMMs. arXiv preprint arXiv:2502.09620 (2025).
  • 机器之心. 无编码器架构潜力或被低估,首个无编码器3D多模态LLM大模型来了. 2025年2月27日. https://www.jiqizhixin.com/ (Accessed March 8, 2025).
    “`


>>> Read more <<<

Views: 0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注