上海的陆家嘴

“`markdown

智源研究院开源BGE-VL多模态向量模型:多模态检索迎来新突破

北京 – 在大模型时代,信息检索的需求日益多样化,用户不仅需要多模态的查询输入,也渴望获取多模态的信息。为了满足这一需求,智源研究院联合多所高校,推出了全新的开源多模态向量模型BGE-VL,为多模态检索技术带来了突破性进展。

BGE-VL:多模态检索的强大引擎

智源研究院的BGE系列模型自发布以来,便受到了社区的广泛好评。此次发布的BGE-VL模型,进一步扩充了BGE的生态体系,并在图文检索、组合图像检索等主要多模态检索任务中取得了最佳效果。

BGE-VL模型的核心优势在于其训练所使用的大规模合成数据集MegaPairs。这一创新设计带来了以下两大核心优势:

  • 优异的可扩展性:MegaPairs结合了多模态表征模型、多模态大模型和大语言模型,能够在海量图文语料库中高效挖掘多模态三元组数据。其算法能够以极低的成本持续生成多样化且高质量的多模态三元组,为多模态检索模型的训练提供了大规模、高价值的数据支持。目前发布的版本已包含2600万条样本。

  • 卓越的数据质量:与传统人工标注数据相比,MegaPairs仅需1/70的数据量即可实现更优的训练效果。利用该合成数据,智源研究院训练的多模态检索模型BGE-VL,显著提升了多个主流多模态检索基准的性能。

MegaPairs:数据合成的创新方法

传统的指令微调技术在文本检索和大语言模型等领域已经证明了其增强多任务能力的有效性。然而,以往的多模态检索指令数据集大多依赖人工标注,限制了大规模多样化数据的获取。

为了解决这一难题,智源BGE团队创新性地提出了MegaPairs数据合成方法。该方法通过从现有大规模图像数据集中挖掘多样的关联图像对,并利用开源多模态大模型和大语言模型进行自动化指令生成,从而构建出高质量、可扩展、泛化性强的多模态检索指令微调数据集。

具体而言,MegaPairs的构造主要分为两个关键步骤:

  1. 图像对挖掘:使用多种相似度模型从图像数据集中挖掘多样的图像对,例如同款汽车的外饰与内饰、同款汽车不同涂装、同品牌汽车未来概念图等。
  2. 指令合成:针对挖掘出的图像对,MegaPairs采用两阶段标注方法:首先使用多模态大语言模型(MLLM)总结两张图片之间的关联关系,然后使用大语言模型(LLM)撰写最终的开放域检索指令。

通过引入多个相似度模型和两阶段标注方法,MegaPairs能够在无需人工参与的情况下,扩展性地生成大规模、高质量且多样化的多模态检索指令数据集。

BGE-VL模型性能卓越

基于MegaPairs合成的大规模多模态检索指令数据集,智源BGE团队训练出了3款不同尺寸的多模态检索模型,包括基于CLIP架构的BGE-VL-Base和BGE-VL-Large,以及基于多模态大模型架构的BGE-VL-MLLM。

实验结果表明,仅使用MegaPairs三元组数据训练,模型就在多个任务上实现了远超以往方法的领先性能优势。

  • MMEB综合性能:在Massive Multimodal Embedding Benchmark(MMEB)上,BGE-VL在多个任务类型和整体评分均实现了最优性能。即使MegaPairs并未包含MMEB中的绝大部分任务类型数据,BGE-VL依然展现出了良好的任务泛化能力。

  • 组合图像检索性能:在当前主流的组合图像检索评测集CIRCO上,BGE-VL在不同模型尺寸上均显著刷新了现有基准,大幅超越了包括谷歌的MagicLens系列和英伟达的MM-Embed等对比基线。

此外,研究还表明,随着MegaPairs数据规模的增加,BGE-VL模型表现出一致的性能增长趋势,证明了MegaPairs数据构造方法的良好可扩展性。与在37M闭源数据上训练的SOTA模型Google MagicLens相比,MegaPairs仅需1/70的数据规模(0.5M)即可实现显著的性能优势,证明了MegaPairs数据的高效性和高质量。

开源共享,共建多模态检索生态

目前,BGE-VL的技术报告已发布,相关数据、模型及代码资源将陆续向社区全面开放。智源研究院希望通过开源共享,与社区共同推动多模态检索技术的发展。

展望未来

BGE-VL的发布标志着多模态检索技术迈出了重要一步。随着MegaPairs数据合成方法的不断完善和BGE-VL模型的持续优化,我们有理由相信,未来的信息检索将更加智能、高效,能够更好地满足用户日益多样化的需求。智源研究院的这一创新成果,不仅为学术界提供了新的研究方向,也为工业界带来了新的应用前景。

参考文献


>>> Read more <<<

Views: 0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注