上海,[日期] – 上海人工智能实验室(Shanghai AI Lab)近日正式开源了其最新研发的多模态大型语言模型InternVL3。该模型系列拥有从10亿到780亿参数的多个版本,在多模态感知和推理能力上实现了显著提升,引发了人工智能领域的广泛关注。

InternVL3的核心优势在于其能够同时处理文本、图像和视频等多种信息,并在此基础上进行高效的推理和理解。这得益于其创新的原生多模态预训练方法,该方法将语言和多模态学习整合到同一个预训练阶段,不仅提升了多模态能力,还进一步增强了纯语言能力。

技术创新:原生多模态预训练与混合偏好优化

传统的预训练方法通常是先单独训练语言模型,然后再适配多模态任务。而InternVL3则打破了这一常规,采用了原生多模态预训练方法。这种方法直接将大规模的多模态数据(如图像-文本、视频-文本序列)与纯文本数据混合训练,使得模型能够同时学习语言和视觉表示,从而在处理视觉语言任务时更加高效,无需额外的对齐模块。

此外,InternVL3还引入了混合偏好优化(MPO)技术。MPO通过结合偏好损失、质量损失和生成损失,显著提升了模型的推理性能。通过引入正负样本的额外监督,MPO能够帮助模型的输出更接近真实分布,减少推理过程中的偏差。

功能扩展:从工具使用到3D视觉感知

InternVL3的功能不仅仅局限于图像和视频的理解。它还扩展了多模态能力,涵盖了工具使用、GUI 代理、工业图像分析和3D视觉感知等更广泛的应用场景。例如,它可以作为图形用户界面(GUI)智能体,遵循指令操作电脑或手机上的专业软件。

此外,InternVL3还集成了可变视觉位置编码(V2PE),从而在长上下文理解能力上表现更出色。用户可以通过LMDeploy的api_server将InternVL3部署为OpenAI兼容API,从而通过OpenAI的API接口轻松调用模型。

应用前景:赋能多行业智能化升级

InternVL3的强大功能使其在多个领域具有广阔的应用前景:

  • 图像和视频理解: 可用于图像分类、目标检测、视频描述生成等任务,服务于内容创作和自动化编辑。
  • 智能交互与工具使用: 作为GUI智能体,操作电脑或手机上的专业软件,实现人机交互的自动化。
  • 工业图像分析与3D视觉感知: 处理复杂的工业场景图像,支持建筑图纸理解、空间感知推理等任务。
  • 智能客服与语言模型应用: 基于其强大的语言生成能力,开发智能客服系统,提供更高效、准确的客户支持。

开源共享:推动AI生态繁荣

上海人工智能实验室选择开源InternVL3,体现了其推动人工智能技术发展和生态繁荣的决心。研究人员、开发者和企业可以基于InternVL3进行二次开发和应用创新,共同推动多模态人工智能技术的进步。

项目地址:

InternVL3的开源,无疑将为人工智能领域注入新的活力,加速多模态技术的应用和发展,为各行各业的智能化升级提供强劲动力。

参考文献:


>>> Read more <<<

Views: 1

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注