机器之心 报道

2025年4月8日 – 在信息检索领域,长期以来,搜索引擎本身的能力并非唯一瓶颈,用户查询(query)的质量往往限制了检索效果。近日,美国伊利诺伊大学厄巴纳-香槟分校(UIUC)韩家炜、孙冀萌团队推出了一项颠覆性研究成果——DeepRetrieval,通过强化学习训练大型语言模型(LLM)优化用户查询,显著提升现有检索系统的性能。该方案仅需3B参数的LLM,即可实现高达50个百分点的提升,甚至在特定场景下达到十倍的检索效果提升。

这项研究题为《DeepRetrieval: Hacking Real Search Engines and Retrievers with Large Language Models via Reinforcement Learning》,相关论文已发布在arXiv预印本平台,并开源了代码和模型。

DeepRetrieval:让提问更聪明

DeepRetrieval的核心思想并非训练新的检索器或直接生成答案,而是在不改变现有搜索系统的前提下,通过优化原始查询,使“提问方式”更加智能化,从而获得更优质的检索结果。它是一个基于强化学习(RL)的query优化系统,旨在训练LLM在不同检索任务中优化原始查询,以最大化真实系统的检索效果。

技术细节

DeepRetrieval的工作流程如下:

  1. 输入: 原始查询 q
  2. 输出: 改写后的查询 q′(自然语言、布尔表达式或 SQL)
  3. 环境反馈: 使用 q′ 在检索系统中查询 → 返回结果 → 与 groundtruth 对比,计算奖励(reward)。奖励基于特定任务的检索表现,例如Recall@K、NDCG@K、SQL accuracy。
  4. 训练: 使用近端策略优化(PPO)算法进行训练,并加入格式奖励(format correctness)与 KL散度正则化,以保证训练的稳定性。

优化目标函数如下:


Objective = Reward - β * KL(π || π_ref)

其中,π_ref 是参考策略(通常为强化学习开始前的初始模型),β 是KL惩罚系数,用于控制正则化的强度。KL散度项惩罚当前策略与参考策略之间的过大偏离,保证策略更新的稳定性。

实验结果:多场景下的显著提升

DeepRetrieval在多个场景下进行了实验,结果表明其具有强大的性能提升潜力:

  • 真实搜索引擎的文献搜索: 在PubMed和ClinicalTrials.gov等专业搜索引擎上,DeepRetrieval无需改动搜索引擎或检索器,仅通过端到端地优化query表达,即可实现高达10倍的检索效果提升,远超商业大模型和之前的SOTA方法LEADS。
  • Evidence-Seeking检索: 在SQuAD、TriviaQA和NQ数据集上,结合简单的BM25算法,DeepRetrieval (3B参数)超越了GPT-4o和Claude-3.5等大型商业模型。Evidence-Seeking任务旨在找到支持特定事实性问题答案的确切文档证据,DeepRetrieval在此任务上的优异表现预示着其在通用搜索引擎领域具有巨大的革新潜力。
  • Classic IR(Sparse / Dense): 在BM25和dense retriever下,DeepRetrieval提供了平均5~10个百分点的NDCG提升。BM25 + DeepRetrieval的组合在检索速度上优势明显,展示了一个现实可部署、性能不俗的高效方案。
  • SQL检索任务: DeepRetrieval摆脱了对groundtruth SQL的依赖,直接利用生成SQL的执行成功率优化模型,通过生成更精准的SQL查询语句,提升检索效果。

通用搜索引擎的革新潜力

DeepRetrieval在Evidence-Seeking检索任务上的优异表现,预示着其在通用搜索引擎领域具有巨大的革新潜力。该团队认为,将DeepRetrieval应用于Google、Bing等通用搜索引擎的Evidence-Seeking场景,将带来以下显著优势:

  • 精准定位事实文档: DeepRetrieval可将简单问题转化为包含关键术语、同义词和限定符的复杂查询,显著提高找到权威证据的概率。
  • 克服知识时效性限制: 模型能够将超出LLM知识截止日期的问题转化为精确搜索表达,使检索系统能够找到最新事实证据。
  • 多源验证能力: 通过优化查询帮助搜索引擎找到多个独立来源的事实证据,从而交叉验证信息准确性,这是纯LLM问答无法实现的关键优势。

UIUC团队表示,会将这部分的延伸作为DeepRetrieval未来主要的探索方向之一。

结论

DeepRetrieval的开源,为信息检索领域带来了一种全新的解决方案。它通过强化学习训练LLM优化用户查询,在不改变现有搜索系统的前提下,显著提升检索效果。该方案在多个场景下都展现出了强大的性能提升潜力,尤其是在Evidence-Seeking检索任务上,预示着其在通用搜索引擎领域具有巨大的革新潜力。DeepRetrieval的出现,有望解决长期以来困扰信息检索领域的“查询质量”瓶颈,开启信息检索的新篇章。


>>> Read more <<<

Views: 3

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注