AI研究者来了！交大、SII发布强化学习模型

上海 [日期] – 上海交通大学与上海人工智能研究院（SII）联合发布了DeepResearcher，一款开创性的AI研究模型。该模型是首个在真实网络环境中通过强化学习训练而成，其代码和训练框架完全开源，旨在解决现有Deep Research产品存在的“黑盒”操作和开源项目行为僵化两大痛点。

随着OpenAI、Google和XAI等科技巨头纷纷推出Deep Research产品，利用大型语言模型（LLMs）整合海量网络信息、解决复杂问题，研究效率得到了显著提升。然而，这些商业产品技术细节不对外公开，如同“黑盒”一般，限制了学术研究和技术创新。另一方面，现有的开源项目往往依赖人工设计的工作流程，导致行为僵化、泛化能力差，难以应对复杂的研究场景。

DeepResearcher的出现，正是为了打破这一僵局。它通过强化学习扩展（RL scaling）在真实网络环境中训练，自主形成了令人惊叹的研究能力。

DeepResearcher的独特之处：真实环境下的强化学习

与以往基于本地知识库模拟搜索的研究不同，DeepResearcher直接与实时搜索引擎互动，在真实互联网的复杂环境中学习研究技能。这就像让AI在“大海”中学习游泳，而非在“模拟水池”中训练。

这种真实环境下的训练赋予了DeepResearcher以下关键能力：

自主规划研究步骤： 模型能够根据问题自主制定研究计划，而非按照预设流程执行。
动态调整搜索策略： 模型能够根据搜索结果实时调整策略，优化搜索方向。
交叉验证不同来源的信息： 模型能够主动验证信息的准确性，确保最终答案的可靠性。

例如，在回答“谁是电影先驱”这类开放性问题时，DeepResearcher不会盲目接受首次搜索结果，而是主动开展第二轮更精确的搜索以验证信息准确性。这种自发形成的交叉验证行为，体现了AI对“研究”本质的真正理解。

端到端训练：摆脱工作流的桎梏

传统的提示工程方法通常预设了固定的工作流程，限制了AI的灵活性和创造性。DeepResearcher采用端到端训练，让模型摆脱了工作流的束缚，能够根据问题的具体情况自主选择最佳的研究路径。

实验结果：超越基线，提升研究任务完成度

DeepResearcher在多个问答数据集上超过了所有基线，与基于提示工程的智能体相比，在研究任务完成度方面最高可提升28.9分。相较于基于RAG的强化学习（RL）智能体，DeepResearcher的提升幅度最高可达7.2分。尤其在知识范围超出维基百科的Bamboogle测试集上，优势更为明显。

研究意义：为AI研究能力培养提供全新视角

DeepResearcher的发布，不仅填补了开源Deep Research领域的关键空白，也为理解如何培养AI的真实研究能力提供了全新视角。它证明了在真实环境中进行强化学习训练，能够赋予AI自主规划、反思、交叉验证等高级研究能力，并能保持诚实回答。

未来展望

DeepResearcher的开源，将促进学术界和工业界在该领域的进一步研究和创新。未来，我们可以期待看到更多基于真实环境强化学习的AI研究模型涌现，为人类解决复杂问题、推动知识进步贡献力量。

相关链接：