上海AI Lab重磅发布：无编码器3D多模态模型ENEL

上海，[日期] – 上海人工智能实验室（Shanghai AI Lab）近日推出了一款名为ENEL（Exploring the Potential of Encoder-free Architectures in 3D LMMs）的创新型无编码器3D大型多模态模型。该模型旨在解决传统编码器架构在3D理解任务中的局限性，并在3D对象分类、字幕生成和视觉问答等多个领域展现出卓越性能，为3D多模态任务开辟了新的可能性。

长期以来，3D数据处理面临着点云分辨率限制和语义嵌入不匹配等挑战，传统编码器架构难以有效捕捉3D场景的复杂信息。ENEL的独特之处在于其无编码器架构，直接将点云数据转换为离散的点标记，并与文本标记拼接后输入到大型语言模型（LLM）中，从而规避了传统编码器的固有问题。

ENEL模型的核心技术包括：

LLM嵌入的语义编码策略： 通过在预训练阶段引入混合语义损失（Hybrid Semantic Loss），ENEL能够从点云中提取高级语义特征，并将其嵌入到LLM中，有效替代了传统3D编码器的功能。
分层几何聚合策略： 在指令调优阶段，ENEL采用分层几何聚合策略，使LLM能够主动感知点云的局部细节。通过聚合和传播操作，将局部几何信息融入LLM的早期层，从而实现对复杂3D结构的精细理解。

上海AI Lab的研究人员表示，ENEL的创新架构使其在多个3D任务上表现出色。例如，在Objaverse基准测试中，ENEL-7B的字幕生成任务GPT分数达到50.92%，分类任务达到55.0%，在3D MM-Vet数据集的VQA任务中达到42.7%，均与现有的13B模型（如ShapeLLM）相当。这些数据表明，ENEL在语义编码方面具有显著优势，能够更好地捕捉点云与文本之间的语义相关性。

ENEL的应用前景广阔，涵盖以下几个主要领域：

3D对象分类： ENEL能对3D对象进行高效分类，适用于工业自动化、机器人视觉和自动驾驶等领域，实现对复杂3D物体的快速识别和分类。
3D对象字幕生成： 该模型可用于生成对3D模型的描述性文本，帮助用户快速理解3D场景中的关键信息，适用于虚拟现实（VR）、增强现实（AR）以及3D建模工具。
3D视觉问答（VQA）： ENEL能够回答与3D场景相关的问题，例如在医学影像分析、建筑设计和教育领域，帮助用户快速获取3D数据中的关键信息。
复杂3D几何结构理解： 适用于需要精确理解复杂几何形状的场景，如航空航天、汽车制造和珠宝设计等领域，帮助工程师和设计师更好地理解和优化3D模型。

ENEL项目的相关资源已在Github上开源（https://github.com/Ivan-Tang-3D/ENEL），技术论文也已发布在arXiv上（https://arxiv.org/pdf/2502.09620）。研究人员和开发者可以利用这些资源深入了解ENEL的技术原理和应用方法。

ENEL的发布标志着3D多模态模型研究领域的一项重要突破。通过创新的无编码器架构和高效的语义编码策略，ENEL为3D理解任务提供了新的解决方案，有望推动相关技术在各个领域的广泛应用。随着人工智能技术的不断发展，我们有理由期待ENEL在未来能够带来更多令人惊喜的成果。

参考文献：

Ivan-Tang-3D/ENEL. (n.d.). GitHub. Retrieved from https://github.com/Ivan-Tang-3D/ENEL
ENEL: Exploring the Potential of Encoder-free Architectures in 3D LMMs. (n.d.). arXiv. Retrieved from https://arxiv.org/pdf/2502.09620

[记者姓名]

[记者单位]

>>> Read more <<<