国产AI模型登顶Hugging Face 月榜:智源BGE掀起向量检索新风潮
北京,2024年10月11日 – 近日,Hugging Face 更新了月度榜单,智源研究院的 BGE 模型登顶榜首,这是中国国产AI 模型首次成为 Hugging Face 月榜冠军。BGE 在短短一年时间内,总下载量已超数亿次,是目前下载量最多的国产 AI 系列模型。
BGE,全称 BAAI General Embedding,是北京智源人工智能研究院研发的开源通用向量模型,专为各类信息检索及大语言模型检索增强应用而打造。自 2023 年 8 月发布首款模型 BGE v1,历经数次迭代,BGE 已发展为全面支持“多场景”、“多语言”、“多功能”、“多模态”的技术生态体系。
BGE的成功,标志着中国 AI 模型在国际舞台上取得了新的突破,也为国产 AI 技术的全球化发展注入了一剂强心针。
BGE:信息检索的“瑞士军刀”
BGE 的成功并非偶然。它不仅性能综合卓越,多次大幅刷新 BEIR、MTEB、C-MTEB 等领域内主流评测榜单,而且始终秉持彻底的开源开放精神,“模型、代码、数据”向社区完全公开。
BGE 在开源社区广受欢迎,许多 RAG(Retrieval-Augmented Generation,检索增强生成)开发者将其比作信息检索的“瑞士军刀”。除了个人用户,BGE 亦被国内外各主流云服务和 AI 厂商普遍集成,形成了很高的社会商业价值。
通用向量模型:为 RAG 提供一站式信息检索服务
检索增强(RAG)是自然语言处理与人工智能领域的一项重要技术。通过借助搜索引擎等信息检索工具,语言模型得以与外部数据库连通,从而实现推理能力与世界知识的整合。
RAG 技术在 2022 年 ChatGPT 发布后得到了广泛关注,成为大语言模型最为成功的应用范式之一。借助 RAG,大语言模型可以帮助人们以非常自然的方式与数据进行交互,从而极大提升获取知识的效率。
向量检索:RAG 技术的关键环节
经典的 RAG 系统由检索与生成两个环节所构成。大语言模型已经为生成环节提供了有力的支撑,然而检索环节在技术层面尚有诸多不确定性。
向量检索(vector search)因其使用的便捷性而广受开发者欢迎。借助向量模型(embedding model)与向量数据库,用户可以构建本地化的搜索服务,从而便捷地支撑包括 RAG 在内的诸多下游应用。
BGE 的创新:打破传统向量模型的局限
传统的向量模型多是针对特定的使用场景、以点对点的方式开发得到的。在面对 RAG 复杂多样的任务诉求时,这些专属的向量模型由于缺乏足够的泛化能力,检索质量往往差强人意。
此外,传统向量模型的研发多围绕英文场景,中文社区缺乏合适的向量模型以及必要的训练资源。
为了解决上述问题,智源提出了“通用向量模型”这一技术构想,目标是实现适应于不同下游任务、不同工作语言、不同数据模态的模型体系,从而为RAG 提供一站式的信息检索服务。
BGE 的发展历程:从单一任务到多语言、多功能
智源规划了多步走的策略,逐步实现通用向量模型的愿景:
- BGE v1(2023 年 8 月): 着眼于“任务统一性”,打造适用于中英文两种最重要语种、全面支持不同下游任务的向量模型。BGE v1 经由 3 亿规模的中英文关联数据训练得到,可以准确表征不同场景下数据之间的语义相关性。
- BGE M3(2024 年 2 月): 实现“语言统一性”,支持 100 多种世界语言的统一表征,并实现各语言内部(多语言能力)及不同语种之间(跨语言能力)的精准语义匹配。BGE M3使用了超过 10 亿条的多语言训练数据,并利用了大量机器翻译数据。
BGE 的未来:持续迭代,引领向量检索新风潮
BGE 的成功只是开始。智源将继续迭代 BGE 模型,不断提升其性能和功能,使其成为更加强大的信息检索工具,为 RAG 技术的发展提供更强大的支撑。
BGE 的出现,不仅为中国 AI 模型的发展注入了新的活力,也为全球 AI 社区带来了新的机遇。 相信在不久的将来,BGE 将会成为全球范围内最受欢迎的向量检索模型之一,为推动 AI 技术的进步做出更大的贡献。
参考文献:
注: 本文仅供参考,实际情况可能有所不同。请以官方信息为准。
Views: 0
