北京—— 北京智源人工智能研究院联合多家高校,近日正式开源了其最新研发的多模态向量模型BGE-VL(Beijing General Embedding – Vision Language)。该模型专注于提升图文检索和组合图像检索的性能,并在多个基准测试中表现出色,尤其是在组合图像检索任务中,显著提升了检索精度,刷新了现有基准。
BGE-VL是什么?
BGE-VL是一系列多模态向量模型,旨在将图像和文本信息映射到统一的向量空间中,从而实现高效的跨模态检索。该系列模型基于大规模合成数据MegaPairs训练而成,包括基于CLIP架构的BGE-VL-Base和BGE-VL-Large,以及基于多模态大模型架构的BGE-VL-MLLM。
核心优势与技术原理
BGE-VL的核心优势在于其数据合成方法的可扩展性和高质量。研究团队开发了一种名为MegaPairs的数据合成方法,该方法包含以下关键步骤:
- 数据挖掘: 从海量图文语料库中挖掘多样化的图像对,利用诸如CLIP等相似度模型,找到与查询图像相关的候选图像。
- 指令生成: 基于多模态大语言模型(MLLM)和大语言模型(LLM)生成开放域检索指令,总结图像对之间的关联关系,撰写高质量的检索指令。
- 三元组构造: 生成包含“查询图像、查询语句、目标图像”的多模态三元组数据,用于模型训练。这种数据合成方法无需人工标注,具有高效性和可扩展性。
在模型架构方面,BGE-VL采用了两种主要架构:
- 基于CLIP的架构: BGE-VL-Base和BGE-VL-Large采用类似CLIP的架构,通过图像编码器和文本编码器将图像和文本映射到同一向量空间中,并通过对比学习优化模型性能。
- 多模态大模型架构: BGE-VL-MLLM基于更复杂的多模态大模型架构,能够处理复杂的多模态交互和指令理解任务。
此外,BGE-VL还采用了指令微调技术,基于合成的多模态指令数据对模型进行微调,从而更好地理解和执行复杂的多模态任务,提升模型的泛化能力和任务适应性。
主要功能与应用场景
BGE-VL的主要功能包括:
- 图文检索: 根据输入的文本描述检索出与之最相关的图像,或根据输入的图像检索出相关的文本信息。
- 组合图像检索: 支持用户同时输入图像和文本指令,综合理解两者信息检索出更精准的目标图像。
- 多模态嵌入: 将图像和文本映射到统一的向量空间中,让不同模态的数据用向量相似度进行比较和检索。
- 指令微调: 基于合成的多模态指令数据对模型进行微调,更好地理解和执行复杂的多模态任务,提升模型的泛化能力和任务适应性。
这些功能使得BGE-VL在以下应用场景中具有广泛的应用前景:
- 智能搜索: 用户上传图片或输入文字,快速找到相关内容,提升搜索精准度。
- 内容推荐: 根据用户上传的内容或兴趣,推荐相似的图文资料,增强个性化体验。
- 图像编辑辅助: 帮助设计师快速找到风格相似的参考图像,提高创作效率。
- 智能客服: 结合图像和文字理解用户问题,提供更直观的解决方案,提升服务效率。
- 文化遗产研究: 基于图片和文字检索,快速找到相关文物或研究资料,助力考古和保护工作。
开源地址
感兴趣的研究人员和开发者可以通过以下链接获取BGE-VL模型:
- HuggingFace模型库:https://huggingface.co/collections/BAAI/megapairs
未来展望
BGE-VL的开源将有助于推动多模态人工智能技术的发展,促进其在各个领域的应用。智源研究院表示,未来将继续投入研发,不断提升BGE-VL模型的性能和功能,并积极探索其在更多场景下的应用潜力。
参考文献
- 智源研究院官方网站
- HuggingFace模型库:https://huggingface.co/collections/BAAI/megapairs
Views: 0
