“`markdown

无编码器架构潜力或被低估？首个无编码器3D多模态LLM大模型ENEL问世

摘要： 近日，上海人工智能实验室等机构的研究者联合发布了首个无编码器架构的3D大型多模态模型ENEL。该模型在性能上与当前最先进的ShapeLLM-13B模型相媲美，引发了业界对于无编码器架构在3D多模态学习领域潜力的重新审视。

上海，中国 – 在人工智能领域，大型多模态模型（LMMs）正逐渐成为研究的热点。这些模型旨在赋予大型语言模型（LLMs）解读多种模态信息的能力，例如2D图像和3D点云。然而，传统LMMs往往依赖于计算量巨大的多模态编码器，这在一定程度上限制了模型的发展和应用。

针对这一问题，来自上海人工智能实验室、西北工业大学、香港中文大学和清华大学的研究团队，在最新研究中探索了无编码器架构在3D LMMs中的潜力。他们的研究成果——首个无编码器架构的3D LMM，被命名为ENEL。

该研究的第一作者汤轶文，本科毕业于上海科技大学，师从李学龙教授，并在上海人工智能实验室实习。他的研究兴趣广泛，涵盖3D视觉、大模型高效迁移、多模态大模型和具身智能等领域。

传统架构的挑战

主流的LMM通常依赖于强大的多模态编码器，例如2D图像领域的CLIP和3D点云领域的I2P-MAE。这些预训练编码器虽然能够提供强大的多模态嵌入和丰富的预先存在知识，但也带来了一些挑战：

ENEL：无编码器架构的突破

为了克服上述挑战，研究团队将3D编码器的功能直接整合到LLM本身，从而避免了对传统编码器的依赖。ENEL模型的亮点在于：

技术方案：弥补语义鸿沟，整合归纳偏置

在无编码器结构的探索中，研究团队主要关注以下两个问题：

为了解决这些问题，研究团队提出了一种混合语义损失（Hybrid Semantic Loss）。该损失函数结合了掩蔽建模和重建策略，能够有效地将高层次的语义信息嵌入到LLM中。

未来展望

ENEL的成功发布，为3D多模态学习领域带来了新的思路。无编码器架构不仅能够降低计算成本，还能提高模型对不同数据模态的适应性。随着研究的深入，我们有理由相信，无编码器架构将在未来的多模态学习中发挥更加重要的作用。

论文信息：

参考文献：

汤轶文 et al. Exploring the Potential of Encoder-free Architectures in 3D LMMs. arXiv preprint arXiv:2502.09620 (2025).
机器之心. 无编码器架构潜力或被低估，首个无编码器3D多模态LLM大模型来了. 2025年2月27日. https://www.jiqizhixin.com/ (Accessed March 8, 2025).
“`