阿里通义实验室推出WebSailor开源网络智能体

引言：智能时代的“信息捕手”

在信息爆炸的时代，如何在海量数据中精准、快速地找到所需信息，成为了一项日益复杂的任务。传统搜索引擎在处理多步骤推理、跨网页验证等高难度任务时，往往显得力不从心。然而，阿里通义实验室最新开源的网络智能体——WebSailor，正试图改变这一现状。WebSailor不仅能够高效处理复杂的信息检索任务，还能通过多轮工具调用与推理重构，提供简洁且精准的答案。那么，WebSailor究竟是如何实现这些功能的呢？它又将如何影响未来的信息检索和推理任务？让我们一同走进这个智能体的世界。

WebSailor是什么？

WebSailor是由阿里巴巴通义千问实验室开发的网络智能体，专注于复杂信息检索与推理任务。通过创新的数据合成方法（如SailorFog-QA）和先进的训练技术（如拒绝采样微调和DUPO算法），WebSailor在高难度任务中表现出色，并在BrowseComp等评测中超越多个知名模型，登顶开源网络智能体榜单。

WebSailor的推出，标志着信息检索技术迈向了一个新的高度。它不仅能够处理模糊和复杂的查询问题，还能通过多步推理和交叉验证，在海量信息中快速定位并验证答案。这一技术的应用，将极大提升科研人员、数据分析师以及普通用户在信息获取方面的效率和准确性。

WebSailor的主要功能

1. 复杂任务数据合成

WebSailor使用SailorFog-QA方法生成高不确定性的复杂任务数据，模拟真实世界中信息搜索的复杂场景。这一方法通过“知识图谱随机游走”技术，从维基数据等知识库中选取冷门实体作为起点，随机扩展知识图谱，构建复杂的非线性关系网络。通过模糊化问题描述（如将具体年份改为时间段、隐去部分信息等），进一步增加任务的初始不确定性。

2. 多轮工具调用与推理重构

WebSailor能够进行多轮工具调用与推理重构，高效处理复杂问题。借助开源推理模型，WebSailor可以在多跳问答场景中逐步拆解复杂问题，并找到准确答案。这一功能在科研与数据分析中尤为重要，可以帮助研究人员快速梳理复杂的信息网络，从多个来源综合信息，提供完整且准确的结论。

3. 强化学习算法

WebSailor采用DUPO算法，通过动态采样策略优化训练效率，显著提升模型的决策能力。DUPO算法的核心在于训练前过滤掉过于简单的样本，训练中重复采样具有挑战性的轨迹，使模型在复杂任务中快速迭代。这一技术的应用，使WebSailor在复杂场景中表现出色，在简单任务中展现出强大的泛化能力。

4. 信息检索与分析

WebSailor能主动搜索、访问多个网页，分析信息之间的关联，提供完整准确的答案。这一功能在处理模糊和复杂的查询问题时尤为重要，通过多步推理和交叉验证，WebSailor可以在海量信息中快速定位并验证答案。

WebSailor的技术原理

1. 数据合成（SailorFog-QA）

WebSailor首先通过SailorFog-QA方法生成高不确定性的复杂任务数据。采用“知识图谱随机游走”技术，从维基数据等知识库中选取冷门实体作为起点，随机扩展知识图谱，构建复杂的非线性关系网络。通过模糊化问题描述（如将具体年份改为时间段、隐去部分信息等），进一步增加任务的初始不确定性。

2. 模型训练（RFT冷启动）

在训练阶段，WebSailor使用拒绝采样微调（RFT）进行冷启动。RFT通过挑选高质量的解题轨迹对模型进行初步对齐，帮助模型掌握基本的推理和工具调用习惯。这一过程确保了模型在复杂任务中的基本推理能力。

3. 强化学习（DUPO算法）

完成冷启动后，WebSailor进入强化学习阶段，采用DUPO（重复采样策略优化）算法。DUPO的核心在于动态采样策略：训练前过滤掉过于简单的样本，训练中重复采样具有挑战性的轨迹。这一策略

>>> Read more <<<

一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

阿里通义实验室推出WebSailor开源网络智能体

作者智能小编

引言：智能时代的“信息捕手”

WebSailor是什么？