大模型“深度思考”：自主工具调用成关键

好的，根据你提供的信息，我将撰写一篇关于复旦大学知识工场实验室在大模型自主工具调用方面取得突破的新闻报道。

标题：复旦大学研究突破：大模型告别“提线木偶”，迎来自主工具调用时代

引言：

人工智能领域迎来一项重要进展。长期以来，大型语言模型（LLM）在工具调用方面受限于预设框架，如同“提线木偶”般被动执行指令。近日，复旦大学知识工场实验室的研究团队成功研发出一种全新的大模型自主工具调用机制，赋予了LLM深度思考和自主决策的能力，使其能够像人类一样，根据实际需求灵活、高效地调用和组合各种工具，从而解决更加复杂的问题。

研究背景：

近年来，GPT-4o、Deepseek-R1等高级模型在理解上下文、拆解复杂问题以及进行自我验证和反思等方面展现出强大的“深度思考”能力。然而，主流模型在基础问题上仍然存在诸多不足，例如复杂运算出错、小数大小比较失误，甚至在简单的字符计数任务中也会出现错误。即使是具备深度思考能力的大模型，也需要消耗大量的计算资源才能勉强完成任务。

现有工具调用方式的局限性：

虽然工具调用可以扩展大模型的能力边界，但现有的工具调用方式存在以下几个主要问题：

浅层模仿而非深度理解： 模型只是学习了特定场景下工具调用的表面模式，缺乏对工具功能边界、适用场景和内部工作机制的真正理解。
上下文依赖性强： 基于Prompt的工具调用方法高度依赖于提示的精确性和完整性，一旦用户描述模糊或提示设计不当，模型就无法正确选择和使用工具。
工具组合能力受限： 当需要多个工具协同解决复杂问题时，现有方法难以支持模型进行灵活的工具组合。

复旦大学知识工场实验室的创新方案：

针对以上问题，复旦大学知识工场实验室团队在开源项目SimpleGRPO中开源实现了大模型自主工具调用机制，通过引入大模型的深度思考能力，从根本上重构了大模型工具调用的范式。该技术使大模型实现了从被动执行的“提线木偶”到具备自主决策能力的智能体的根本跃迁。

该方案的核心优势：

深度整合： 大模型不仅是工具的“操控者”，而是能在推理过程中深度理解工具的功能，知道什么时候、如何使用工具才能更高效地解决问题。
动态调整： 每次调用工具后，模型会根据新获得的信息自动调整思路，不断改进解决方案，让每一次思考都更精确。
连续性与灵活性： 不同于传统的单次工具调用，自主工具调用能力可以使得模型能够在复杂任务中多次调用工具，通过连续的交互获取最佳答案。
创新组合： 当一个工具无法完成任务时，模型能创新性地将多个工具结合起来，解决更为复杂的挑战。

具体实现方式：

研究团队使用强化学习算法给LLM装上“决策中枢”，实现了两种模式：

方案1【边想边干】： LLM思考到一半突然写代码辅助解决 → 编译器运行 → 继续思考完成后续的推理。
方案2【专业分工】： LLM负责提需求，直接说“我需要计算38和16的最小公倍数”，专属代码小弟秒速响应！强强联手更精准！

实验结果：

研究团队以Qwen2.5-7B为基础模型，在GSM8K数据集上进行了训练。实验结果表明，模型在执行复杂运算时能够自主调用命令行来计算，并且在训练时只接触数学题的情况下，推理时能自主泛化到其他问题上。例如，在比较3.11和3.9的大小时，模型能够自动生成代码print(3.11 > 3.9)，并输出False，从而得出正确结论。在计算“strawberry”中有几个“r”时，模型能够直接使用代码strawberry.count('r')，精准输出3。

未来展望：

复旦大学知识工场实验室的这项研究成果为大模型的发展开辟了新的方向。通过赋予大模型自主工具调用的能力，可以极大地拓展其应用范围，使其在科学研究、工程设计、金融分析等领域发挥更大的作用。

研究团队：

本项目由复旦大学知识工场实验室肖仰华教授、梁家卿青年副研究员领导，博士生韩槿一，硕士生李廷云、熊程元、姜子上、王昕奕等同学共同参与完成。

项目开源地址：

https://github.com/lsdefine/simple_GRPO/tree/main/Auto_Program

结语：

复旦大学知识工场实验室的这项研究成果标志着大模型技术发展的一个重要里程碑。我们有理由相信，随着自主工具调用能力的不断提升，大模型将在未来的人工智能领域扮演更加重要的角色。

参考文献：