上海 [日期] – 上海交通大学与上海人工智能研究院(SII)联合发布了DeepResearcher,一款开创性的AI研究模型。该模型是首个在真实网络环境中通过强化学习训练而成,其代码和训练框架完全开源,旨在解决现有Deep Research产品存在的“黑盒”操作和开源项目行为僵化两大痛点。

随着OpenAI、Google和XAI等科技巨头纷纷推出Deep Research产品,利用大型语言模型(LLMs)整合海量网络信息、解决复杂问题,研究效率得到了显著提升。然而,这些商业产品技术细节不对外公开,如同“黑盒”一般,限制了学术研究和技术创新。另一方面,现有的开源项目往往依赖人工设计的工作流程,导致行为僵化、泛化能力差,难以应对复杂的研究场景。

DeepResearcher的出现,正是为了打破这一僵局。它通过强化学习扩展(RL scaling)在真实网络环境中训练,自主形成了令人惊叹的研究能力。

DeepResearcher的独特之处:真实环境下的强化学习

与以往基于本地知识库模拟搜索的研究不同,DeepResearcher直接与实时搜索引擎互动,在真实互联网的复杂环境中学习研究技能。这就像让AI在“大海”中学习游泳,而非在“模拟水池”中训练。

这种真实环境下的训练赋予了DeepResearcher以下关键能力:

  • 自主规划研究步骤: 模型能够根据问题自主制定研究计划,而非按照预设流程执行。
  • 动态调整搜索策略: 模型能够根据搜索结果实时调整策略,优化搜索方向。
  • 交叉验证不同来源的信息: 模型能够主动验证信息的准确性,确保最终答案的可靠性。

例如,在回答“谁是电影先驱”这类开放性问题时,DeepResearcher不会盲目接受首次搜索结果,而是主动开展第二轮更精确的搜索以验证信息准确性。这种自发形成的交叉验证行为,体现了AI对“研究”本质的真正理解。

端到端训练:摆脱工作流的桎梏

传统的提示工程方法通常预设了固定的工作流程,限制了AI的灵活性和创造性。DeepResearcher采用端到端训练,让模型摆脱了工作流的束缚,能够根据问题的具体情况自主选择最佳的研究路径。

实验结果:超越基线,提升研究任务完成度

DeepResearcher在多个问答数据集上超过了所有基线,与基于提示工程的智能体相比,在研究任务完成度方面最高可提升28.9分。相较于基于RAG的强化学习(RL)智能体,DeepResearcher的提升幅度最高可达7.2分。尤其在知识范围超出维基百科的Bamboogle测试集上,优势更为明显。

研究意义:为AI研究能力培养提供全新视角

DeepResearcher的发布,不仅填补了开源Deep Research领域的关键空白,也为理解如何培养AI的真实研究能力提供了全新视角。它证明了在真实环境中进行强化学习训练,能够赋予AI自主规划、反思、交叉验证等高级研究能力,并能保持诚实回答。

未来展望

DeepResearcher的开源,将促进学术界和工业界在该领域的进一步研究和创新。未来,我们可以期待看到更多基于真实环境强化学习的AI研究模型涌现,为人类解决复杂问题、推动知识进步贡献力量。

相关链接:


>>> Read more <<<

Views: 2

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注