摘要: 北京邮电大学与彩云科技的研究团队,针对大型语言模型(LLM)在组合关系推理(CRR)方面的能力提出了质疑。他们开发了一种新的基准测试——广义关联回忆(GAR),并对包括 GPT-3.5/4 和 Llama 系列在内的多个主流 LLM 进行了测试。结果显示,即使是最先进的模型在面对复杂的组合推理任务时也表现出明显的“组合性差距”,表明增加模型规模并不能完全解决这一问题。该研究已被 AAAI 2025 接收,为理解 LLM 的内部推理机制提供了新的视角。
北京,2024年12月27日 – 人类拥有一种与生俱来的能力,能够理解事物之间复杂而微妙的关系,并在此基础上进行推理,这种能力被称为组合关系推理(CRR)。从理解家庭成员之间的亲属关系,到分析国际政治中的利益博弈,CRR 无处不在。那么,近年来炙手可热的大型语言模型(LLM),例如 GPT 系列和 Llama 系列,是否也具备这种能力呢?它们又是如何模拟人类的推理过程的?
近日,来自北京邮电大学网络空间安全学院和彩云科技的研究团队,针对这一问题展开了深入研究。他们开发了一种名为“广义关联回忆”(Generalized Associative Recall, GAR)的全新基准测试,旨在更全面、更深入地评估 LLM 在组合关系推理方面的表现。该研究成果已被人工智能领域顶级会议 AAAI 2025 接收。
GAR:更具挑战性和可解释性的基准测试
研究者指出,现有的 LLM 测试任务要么过于简单,无法反映模型在复杂场景下的真实表现,要么过于复杂,难以深入研究模型的内部机制。为了弥补这一缺陷,他们设计了 GAR,该基准测试整合了知识回忆、关联回忆和间接对象识别等经典任务,并通过不同的任务形式(肯定/否定句、生成/分类任务)和难度等级,系统地考察模型的推理能力。
简单来说,GAR 包含以下几种类型的任务:
- 关联回忆: 类似于“抄写”,例如,前文提到“小明有苹果”,后文问“小明有__”,模型需要填入“苹果”。
- 知识回忆: 考察模型“脑子”里的常识知识,例如,“苹果是一种(水果)”,或者“巴黎在(法国)”。
- 间接对象识别: 考察模型排除否定信息的能力,例如,“【苹果、狗、苹果】哪个不是苹果?__(狗)”。
GAR 的独特之处在于其高度的挑战性和可解释性。即使是最先进的 LLM,在 GAR 任务上的表现也并不理想,暴露了它们在组合推理能力上的缺陷。同时,GAR 任务相对简单的生成过程,使得研究者能够更好地追踪模型内部的推理机制。
实验结果:大模型也“蒙圈”?
研究团队对包括 Llama-2/3 (7B/13B/33B/70B) 和 GPT-3.5/4 在内的多个主流 LLM 进行了测试。结果显示:
- 任务难度显著影响表现: 随着推理步骤或复杂度的增加,模型的正确率明显下降。
- “组合性差距”: 模型在回答任务的各个子问题时可能表现良好,但无法正确组合这些答案以得出最终结论。例如,模型可以轻松回答“【小明有苹果,小红有狗】小明有(苹果)”或“苹果是一种(水果)”,但当问题变为“【小明有苹果,小红有狗】小红没有一种__(水果)”时,模型就很容易出错。
- 模型规模与性能: 虽然更大的模型在一些任务上表现更好,但它们的“组合性差距”往往更明显,这表明增加模型规模并不能完全解决这个问题。
研究意义与未来展望
这项研究揭示了当前 LLM 在组合关系推理方面存在的局限性,并提出了“组合性差距”这一重要概念。研究结果表明,仅仅依靠增加模型规模可能无法有效提升 LLM 的推理能力,需要更深入地研究模型的内部机制,并探索新的训练方法。
该研究团队表示,未来将继续深入研究 LLM 的内部推理过程,并尝试开发更有效的训练方法,以提升 LLM 在组合关系推理方面的能力。他们的研究成果将为人工智能领域的发展提供重要的参考价值。
参考文献:
- 倪睿康, 肖达. Benchmarking and Understanding Compositional Relational Reasoning of LLMs. arXiv preprint arXiv:2412.12841, 2024.
相关链接:
Views: 1