AAAI 2025：大模型关系推理能力揭秘

摘要： 北京邮电大学与彩云科技的研究团队，针对大型语言模型（LLM）在组合关系推理（CRR）方面的能力提出了质疑。他们开发了一种新的基准测试——广义关联回忆（GAR），并对包括 GPT-3.5/4 和 Llama 系列在内的多个主流 LLM 进行了测试。结果显示，即使是最先进的模型在面对复杂的组合推理任务时也表现出明显的“组合性差距”，表明增加模型规模并不能完全解决这一问题。该研究已被 AAAI 2025 接收，为理解 LLM 的内部推理机制提供了新的视角。

北京，2024年12月27日 – 人类拥有一种与生俱来的能力，能够理解事物之间复杂而微妙的关系，并在此基础上进行推理，这种能力被称为组合关系推理（CRR）。从理解家庭成员之间的亲属关系，到分析国际政治中的利益博弈，CRR 无处不在。那么，近年来炙手可热的大型语言模型（LLM），例如 GPT 系列和 Llama 系列，是否也具备这种能力呢？它们又是如何模拟人类的推理过程的？

近日，来自北京邮电大学网络空间安全学院和彩云科技的研究团队，针对这一问题展开了深入研究。他们开发了一种名为“广义关联回忆”（Generalized Associative Recall, GAR）的全新基准测试，旨在更全面、更深入地评估 LLM 在组合关系推理方面的表现。该研究成果已被人工智能领域顶级会议 AAAI 2025 接收。

GAR：更具挑战性和可解释性的基准测试

研究者指出，现有的 LLM 测试任务要么过于简单，无法反映模型在复杂场景下的真实表现，要么过于复杂，难以深入研究模型的内部机制。为了弥补这一缺陷，他们设计了 GAR，该基准测试整合了知识回忆、关联回忆和间接对象识别等经典任务，并通过不同的任务形式（肯定/否定句、生成/分类任务）和难度等级，系统地考察模型的推理能力。

简单来说，GAR 包含以下几种类型的任务：

关联回忆： 类似于“抄写”，例如，前文提到“小明有苹果”，后文问“小明有__”，模型需要填入“苹果”。
知识回忆： 考察模型“脑子”里的常识知识，例如，“苹果是一种（水果）”，或者“巴黎在（法国）”。
间接对象识别： 考察模型排除否定信息的能力，例如，“【苹果、狗、苹果】哪个不是苹果？__（狗）”。

GAR 的独特之处在于其高度的挑战性和可解释性。即使是最先进的 LLM，在 GAR 任务上的表现也并不理想，暴露了它们在组合推理能力上的缺陷。同时，GAR 任务相对简单的生成过程，使得研究者能够更好地追踪模型内部的推理机制。

实验结果：大模型也“蒙圈”？

研究团队对包括 Llama-2/3 (7B/13B/33B/70B) 和 GPT-3.5/4 在内的多个主流 LLM 进行了测试。结果显示：

任务难度显著影响表现： 随着推理步骤或复杂度的增加，模型的正确率明显下降。
“组合性差距”： 模型在回答任务的各个子问题时可能表现良好，但无法正确组合这些答案以得出最终结论。例如，模型可以轻松回答“【小明有苹果，小红有狗】小明有（苹果）”或“苹果是一种（水果）”，但当问题变为“【小明有苹果，小红有狗】小红没有一种__（水果）”时，模型就很容易出错。
模型规模与性能： 虽然更大的模型在一些任务上表现更好，但它们的“组合性差距”往往更明显，这表明增加模型规模并不能完全解决这个问题。

研究意义与未来展望

这项研究揭示了当前 LLM 在组合关系推理方面存在的局限性，并提出了“组合性差距”这一重要概念。研究结果表明，仅仅依靠增加模型规模可能无法有效提升 LLM 的推理能力，需要更深入地研究模型的内部机制，并探索新的训练方法。

该研究团队表示，未来将继续深入研究 LLM 的内部推理过程，并尝试开发更有效的训练方法，以提升 LLM 在组合关系推理方面的能力。他们的研究成果将为人工智能领域的发展提供重要的参考价值。

参考文献：