智源开源BGE-VL，多模态向量模型引关注

北京—— 北京智源人工智能研究院联合多家高校，近日正式开源了其最新研发的多模态向量模型BGE-VL（Beijing General Embedding – Vision Language）。该模型专注于提升图文检索和组合图像检索的性能，并在多个基准测试中表现出色，尤其是在组合图像检索任务中，显著提升了检索精度，刷新了现有基准。

BGE-VL是什么？

BGE-VL是一系列多模态向量模型，旨在将图像和文本信息映射到统一的向量空间中，从而实现高效的跨模态检索。该系列模型基于大规模合成数据MegaPairs训练而成，包括基于CLIP架构的BGE-VL-Base和BGE-VL-Large，以及基于多模态大模型架构的BGE-VL-MLLM。

核心优势与技术原理

BGE-VL的核心优势在于其数据合成方法的可扩展性和高质量。研究团队开发了一种名为MegaPairs的数据合成方法，该方法包含以下关键步骤：

数据挖掘： 从海量图文语料库中挖掘多样化的图像对，利用诸如CLIP等相似度模型，找到与查询图像相关的候选图像。
指令生成： 基于多模态大语言模型（MLLM）和大语言模型（LLM）生成开放域检索指令，总结图像对之间的关联关系，撰写高质量的检索指令。
三元组构造： 生成包含“查询图像、查询语句、目标图像”的多模态三元组数据，用于模型训练。这种数据合成方法无需人工标注，具有高效性和可扩展性。

在模型架构方面，BGE-VL采用了两种主要架构：

基于CLIP的架构： BGE-VL-Base和BGE-VL-Large采用类似CLIP的架构，通过图像编码器和文本编码器将图像和文本映射到同一向量空间中，并通过对比学习优化模型性能。
多模态大模型架构： BGE-VL-MLLM基于更复杂的多模态大模型架构，能够处理复杂的多模态交互和指令理解任务。

此外，BGE-VL还采用了指令微调技术，基于合成的多模态指令数据对模型进行微调，从而更好地理解和执行复杂的多模态任务，提升模型的泛化能力和任务适应性。

主要功能与应用场景

BGE-VL的主要功能包括：