上海,[日期] – 上海人工智能实验室(Shanghai AI Lab)近日正式开源了其最新的多模态大型语言模型(MLLM)InternVL3。这一举措标志着中国在人工智能领域,尤其是在多模态理解与生成方面,取得了又一重要进展。InternVL3以其卓越的多模态感知和推理能力,以及对多种信息形式(包括文字、图片和视频)的综合处理能力,引发了业界的广泛关注。

InternVL3模型系列包含从10亿到780亿参数的七个不同尺寸版本,旨在满足不同应用场景的需求。该模型的核心创新在于其采用的原生多模态预训练方法。与传统方法不同,InternVL3将语言和多模态学习整合到同一个预训练阶段,从而显著提升了模型的多模态能力,同时也增强了其纯语言能力。

技术亮点:原生多模态预训练与混合偏好优化

传统的多模态模型通常采用先训练语言模型,再适配多模态任务的方式。而InternVL3则直接将大规模的多模态数据(如图像-文本、视频-文本序列)与纯文本数据混合训练。这种统一的训练方式使模型能够同时学习语言和视觉表示,在处理视觉语言任务时更加高效,无需额外的对齐模块。

此外,InternVL3还引入了混合偏好优化(MPO)技术,通过结合偏好损失、质量损失和生成损失,显著提升了模型的推理性能。MPO通过引入正负样本的额外监督,帮助模型的输出更接近真实分布,减少推理过程中的偏差。

功能与应用:从图像理解到智能客服

InternVL3的功能远不止于简单的图像和视频理解。该模型能够执行以下任务:

  • 图像和视频理解: InternVL3可以用于图像分类、目标检测、视频描述生成等任务,能根据输入的图像或视频生成详细的描述,服务于内容创作和自动化编辑。
  • 智能交互与工具使用: 模型支持工具使用和GUI代理功能,可以作为图形用户界面(GUI)智能体,遵循指令操作电脑或手机上的专业软件。
  • 工业图像分析与3D视觉感知: InternVL3的多模态能力扩展至工业图像分析和3D视觉感知,能处理复杂的工业场景图像,支持建筑图纸理解、空间感知推理等任务。
  • 智能客服与语言模型应用: 基于其强大的语言生成能力,InternVL3可用于开发智能客服系统,提供更高效、准确的客户支持。

部署与调用:便捷的API接口

为了方便开发者使用,InternVL3可以通过LMDeploy的api_server部署为OpenAI兼容API。这意味着用户可以通过OpenAI的API接口轻松调用模型,降低了使用门槛。

开源地址与技术论文

InternVL3的项目地址如下:

结语

InternVL3的开源,不仅为人工智能研究者和开发者提供了强大的工具,也为多模态大语言模型的发展注入了新的活力。随着技术的不断进步,我们有理由期待InternVL3在更多领域发挥重要作用,推动人工智能技术的创新和应用。

参考文献:


>>> Read more <<<

Views: 0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注