上海AI Lab发布InternVL3多模态大模型

上海，[日期] – 上海人工智能实验室（Shanghai AI Lab）近日正式开源了其最新的多模态大型语言模型（MLLM）InternVL3。这一举措标志着中国在人工智能领域，尤其是在多模态理解与生成方面，取得了又一重要进展。InternVL3以其卓越的多模态感知和推理能力，以及对多种信息形式（包括文字、图片和视频）的综合处理能力，引发了业界的广泛关注。

InternVL3模型系列包含从10亿到780亿参数的七个不同尺寸版本，旨在满足不同应用场景的需求。该模型的核心创新在于其采用的原生多模态预训练方法。与传统方法不同，InternVL3将语言和多模态学习整合到同一个预训练阶段，从而显著提升了模型的多模态能力，同时也增强了其纯语言能力。

技术亮点：原生多模态预训练与混合偏好优化

传统的多模态模型通常采用先训练语言模型，再适配多模态任务的方式。而InternVL3则直接将大规模的多模态数据（如图像-文本、视频-文本序列）与纯文本数据混合训练。这种统一的训练方式使模型能够同时学习语言和视觉表示，在处理视觉语言任务时更加高效，无需额外的对齐模块。

此外，InternVL3还引入了混合偏好优化（MPO）技术，通过结合偏好损失、质量损失和生成损失，显著提升了模型的推理性能。MPO通过引入正负样本的额外监督，帮助模型的输出更接近真实分布，减少推理过程中的偏差。

功能与应用：从图像理解到智能客服

InternVL3的功能远不止于简单的图像和视频理解。该模型能够执行以下任务：

图像和视频理解： InternVL3可以用于图像分类、目标检测、视频描述生成等任务，能根据输入的图像或视频生成详细的描述，服务于内容创作和自动化编辑。
智能交互与工具使用： 模型支持工具使用和GUI代理功能，可以作为图形用户界面（GUI）智能体，遵循指令操作电脑或手机上的专业软件。
工业图像分析与3D视觉感知： InternVL3的多模态能力扩展至工业图像分析和3D视觉感知，能处理复杂的工业场景图像，支持建筑图纸理解、空间感知推理等任务。
智能客服与语言模型应用： 基于其强大的语言生成能力，InternVL3可用于开发智能客服系统，提供更高效、准确的客户支持。

部署与调用：便捷的API接口

为了方便开发者使用，InternVL3可以通过LMDeploy的api_server部署为OpenAI兼容API。这意味着用户可以通过OpenAI的API接口轻松调用模型，降低了使用门槛。

开源地址与技术论文

InternVL3的项目地址如下：

HuggingFace模型库： https://huggingface.co/OpenGVLab/InternVL3-78B
技术论文： https://huggingface.co/papers/2504.10479

结语

InternVL3的开源，不仅为人工智能研究者和开发者提供了强大的工具，也为多模态大语言模型的发展注入了新的活力。随着技术的不断进步，我们有理由期待InternVL3在更多领域发挥重要作用，推动人工智能技术的创新和应用。

参考文献：

OpenGVLab. (2024). InternVL3-78B. Hugging Face. Retrieved from https://huggingface.co/OpenGVLab/InternVL3-78B
OpenGVLab. (2024). InternVL3 Technical Paper. Hugging Face. Retrieved from https://huggingface.co/papers/2504.10479

>>> Read more <<<

一	二	三	四	五	六	日
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

上海AI Lab发布InternVL3多模态大模型

作者智能小编

技术亮点：原生多模态预训练与混合偏好优化

功能与应用：从图像理解到智能客服

部署与调用：便捷的API接口

开源地址与技术论文

结语

相关文章

永新光学 (603297.SH) ：国产替代与新兴业务驱动下的价值重估

来伊份：转型阵痛中的价值重塑与未来突围

北方稀土 (600111.SH): 战略核心资产的价值重估——迎接“戴维斯双击”

发表回复取消回复

为您推荐

永新光学 (603297.SH) ：国产替代与新兴业务驱动下的价值重估

来伊份：转型阵痛中的价值重塑与未来突围

北方稀土 (600111.SH): 战略核心资产的价值重估——迎接“戴维斯双击”

国之重器，芯之所向：新周期与大国博弈下的中芯国际(688981.SH)价值重估

作者智能小编

技术亮点：原生多模态预训练与混合偏好优化

功能与应用：从图像理解到智能客服

部署与调用：便捷的API接口

开源地址与技术论文

结语

相关文章

发表回复 取消回复

为您推荐

发表回复取消回复