上海AI Lab开源InternVL3多模态大模型

上海，[日期] – 上海人工智能实验室（Shanghai AI Lab）近日正式开源了其最新研发的多模态大型语言模型InternVL3。该模型系列拥有从10亿到780亿参数的多个版本，在多模态感知和推理能力上实现了显著提升，引发了人工智能领域的广泛关注。

InternVL3的核心优势在于其能够同时处理文本、图像和视频等多种信息，并在此基础上进行高效的推理和理解。这得益于其创新的原生多模态预训练方法，该方法将语言和多模态学习整合到同一个预训练阶段，不仅提升了多模态能力，还进一步增强了纯语言能力。

技术创新：原生多模态预训练与混合偏好优化

传统的预训练方法通常是先单独训练语言模型，然后再适配多模态任务。而InternVL3则打破了这一常规，采用了原生多模态预训练方法。这种方法直接将大规模的多模态数据（如图像-文本、视频-文本序列）与纯文本数据混合训练，使得模型能够同时学习语言和视觉表示，从而在处理视觉语言任务时更加高效，无需额外的对齐模块。

此外，InternVL3还引入了混合偏好优化（MPO）技术。MPO通过结合偏好损失、质量损失和生成损失，显著提升了模型的推理性能。通过引入正负样本的额外监督，MPO能够帮助模型的输出更接近真实分布，减少推理过程中的偏差。

功能扩展：从工具使用到3D视觉感知

InternVL3的功能不仅仅局限于图像和视频的理解。它还扩展了多模态能力，涵盖了工具使用、GUI 代理、工业图像分析和3D视觉感知等更广泛的应用场景。例如，它可以作为图形用户界面（GUI）智能体，遵循指令操作电脑或手机上的专业软件。

此外，InternVL3还集成了可变视觉位置编码（V2PE），从而在长上下文理解能力上表现更出色。用户可以通过LMDeploy的api_server将InternVL3部署为OpenAI兼容API，从而通过OpenAI的API接口轻松调用模型。

应用前景：赋能多行业智能化升级

InternVL3的强大功能使其在多个领域具有广阔的应用前景：

图像和视频理解： 可用于图像分类、目标检测、视频描述生成等任务，服务于内容创作和自动化编辑。
智能交互与工具使用： 作为GUI智能体，操作电脑或手机上的专业软件，实现人机交互的自动化。
工业图像分析与3D视觉感知： 处理复杂的工业场景图像，支持建筑图纸理解、空间感知推理等任务。
智能客服与语言模型应用： 基于其强大的语言生成能力，开发智能客服系统，提供更高效、准确的客户支持。

开源共享：推动AI生态繁荣

上海人工智能实验室选择开源InternVL3，体现了其推动人工智能技术发展和生态繁荣的决心。研究人员、开发者和企业可以基于InternVL3进行二次开发和应用创新，共同推动多模态人工智能技术的进步。

项目地址：

HuggingFace模型库：https://huggingface.co/OpenGVLab/InternVL3-78B
技术论文：https://huggingface.co/papers/2504.10479

InternVL3的开源，无疑将为人工智能领域注入新的活力，加速多模态技术的应用和发展，为各行各业的智能化升级提供强劲动力。

参考文献：

OpenGVLab. (2024). InternVL3-78B. Hugging Face. Retrieved from https://huggingface.co/OpenGVLab/InternVL3-78B
OpenGVLab. (2024). InternVL3 Technical Paper. Hugging Face. Retrieved from https://huggingface.co/papers/2504.10479

>>> Read more <<<

一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31

上海AI Lab开源InternVL3多模态大模型

作者智能小编

技术创新：原生多模态预训练与混合偏好优化

功能扩展：从工具使用到3D视觉感知

应用前景：赋能多行业智能化升级

开源共享：推动AI生态繁荣

相关文章

当“建工爷叔”网红流量撞上金矿与机器人传闻，周期困境中的上海建工（600170.SH）能否迎来价值重估？

超越包裹：解构顺丰控股（002352.SZ）向综合物流巨头的转型估值与长期价值

华域汽车 (600741.SH): 传统巨擘的电动化转身——深度估值与战略剖析

发表回复取消回复

为您推荐

英维克 (002837.SZ): AI浪潮下的液冷巨擘，高速增长与运营挑战并存

阳光电源（300274.SZ）：储能开启第二成长曲线，价值重估在即的全球光储巨擘

上海电气（601727.SH）：绿色转型催化剂——在周期性巨擘中探寻新质生产力价值

宁德时代（300750.SZ）：储能与全球化驱动下的价值重估

作者智能小编

技术创新：原生多模态预训练与混合偏好优化

功能扩展：从工具使用到3D视觉感知

应用前景：赋能多行业智能化升级

开源共享：推动AI生态繁荣

相关文章

发表回复 取消回复

为您推荐

发表回复取消回复