shanghaishanghai

北京 – 阿里巴巴通义实验室近日推出了一款名为MaskSearch的全新通用预训练框架,旨在显著提升大型语言模型(LLM)的智能体搜索能力。该框架通过创新的检索增强掩码预测(RAMP)任务,以及多智能体协同生成思维链(CoT)数据等技术,为LLM在开放域多跳问答、智能客服、教育辅导等多个领域带来了性能提升的潜力。

RAMP任务:模拟信息缺失,强化检索能力

MaskSearch的核心在于其独特的RAMP任务。借鉴了BERT的掩码机制,RAMP任务会随机遮蔽输入文本中的关键信息,例如命名实体、日期、数字,甚至是本体知识和特定术语。随后,模型需要借助外部知识库,调用搜索工具来预测这些被掩盖的片段。

“这种设计巧妙地模拟了人类在面对信息缺失时的思考过程,迫使模型更加依赖检索和推理能力,从而更精细化地处理信息。”一位匿名的人工智能专家评论道。

多智能体协同:高质量思维链数据的保障

为了生成高质量的监督微调(SFT)数据,MaskSearch采用了多智能体系统,其中包含规划者、重写者和观察者等角色。这些智能体协同完成思维链的生成任务,最终由一个LLM负责答案判断,只保留正确答案的思维链。

这种方法不仅可以快速扩展数据集,还能有效保证数据的质量。据了解,阿里巴巴的研究人员还利用已有的数据训练教师模型,并逐步迭代,进一步提升数据质量。

动态采样策略优化(DAPO):强化学习的精细化控制

在强化学习方面,MaskSearch采用了动态采样策略优化(DAPO)算法,构建了一个混合奖励系统,该系统包含格式奖励和回答奖励。格式奖励用于检查模型输出是否符合指定格式,而回答奖励则评估生成答案与标准答案的一致性。

值得一提的是,MaskSearch选择基于模型的奖励函数,使用Qwen2.5-72B-Instruct模型作为评判标准,为生成答案和标准答案的一致性进行打分,从而实现对强化学习过程的精细化控制。

课程学习:循序渐进提升模型能力

为了更好地训练模型,MaskSearch还引入了课程学习策略,依据掩码数量对训练样本进行难度分级,让模型从易到难依次学习,逐步提升能力。

广泛的应用前景:赋能多行业智能化升级

MaskSearch的推出,无疑为LLM的应用带来了新的可能性。

  • 智能客服: 提升客服系统对用户问题的理解能力,快速检索相关答案,提高效率和用户满意度。
  • 教育领域: 构建智能辅导系统,帮助学生理解复杂问题,提供个性化学习支持。
  • 企业级搜索: 增强企业搜索系统的检索能力,更准确地理解用户意图,快速检索信息,提高决策效率。
  • 模型调试优化: 辅助机器学习模型的调试与优化,例如通过掩码属性查询图像数据库,识别模型学习到的虚假相关性。

开源与开放:共同推动AI技术发展

目前,MaskSearch的相关代码和论文已经开源,项目地址为https://github.com/Alibaba-NLP/MaskSearch,技术论文地址为https://arxiv.org/pdf/2505.20285

阿里巴巴此举无疑将促进AI社区对检索增强预训练框架的研究和应用,共同推动AI技术的进步和发展。

未来展望:持续探索与创新

随着人工智能技术的不断发展,我们有理由相信,MaskSearch等创新框架将在未来发挥更大的作用,为各行各业的智能化升级提供更强大的动力。阿里巴巴通义实验室也将继续深耕AI领域,为构建更加智能、高效的未来贡献力量。


>>> Read more <<<

Views: 0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注