AI推理能力遭质疑：苹果论文揭露大模型“智商”缺陷

作者智能小编

10 月 13, 2024 #AI, #机器之心, #论文

AI 大模型的推理能力：苹果新论文引发的争议

引言：

人工智能（AI）大模型，如 GPT-3 和 Bard，展现出令人惊叹的语言能力，甚至能生成看似合理的文本和代码。然而，它们真的能像我们理解的那样「思考」或「推理」吗？最近，苹果的一篇论文引发了热议，它质疑了 AI 大模型的推理能力，并指出它们可能只是在模仿训练数据中的模式，而非真正理解问题。

苹果论文揭示 AI 大模型的局限性：

这篇题为「GSM-Symbolic: Understanding the Limitations of Mathematical Reasoning in Large Language Models」的论文，由苹果机器学习研究工程师 Iman Mirzadeh 等人撰写。他们通过一系列精心设计的数学问题，揭示了 AI 大模型在推理方面的脆弱性。

论文中，研究人员发现，即使是 OpenAI 最新最强的 o1-preview 模型，也无法准确解决一些看似简单的数学问题。例如，在一个关于奥利弗摘猕猴桃的数学题中，研究人员添加了一句无关紧要的「废话」：「其中 5 个比平均大小要小」。结果，o1-preview 模型被误导，并给出了错误的答案。

研究人员认为，这种现象表明，AI 大模型并没有真正理解问题，而只是在模仿训练数据中的模式。当遇到与训练数据不符的细节时，它们就会出现错误。

争议与反驳：

苹果的论文引发了AI 研究领域的热烈讨论。一些研究者赞同论文的观点，认为 AI 大模型的推理能力被高估了。例如，Keras 之父 François Chollet 和美国心理学家 Gary Marcus 都转发了这篇论文，并表达了对 AI 大模型能力的质疑。

然而，来自 OpenAI 的一位研究者反驳了该论文，他指出，许多顶级的 LLM 实际上是聊天模型，它们被训练来处理混乱的聊天环境，需要猜测用户意图并利用所有提供的信息。因此，当这些模型将这种行为泛化应用于数学问题时，它们的表现并不是因为缺乏推理能力，而是因为这是它们被训练遵循的预期行为。

结论与展望：

苹果的这篇论文为 AI 大模型的推理能力提出了新的质疑，并引发了关于 AI 发展方向的思考。虽然 AI 大模型在语言生成和信息检索方面取得了显著进展，但它们在真正理解和推理方面仍然存在局限性。

未来的研究需要进一步探索 AI 大模型的推理机制，并开发新的训练方法，帮助它们更好地理解和解决复杂问题。同时，我们也需要谨慎看待 AI 大模型的能力，避免过度依赖它们，并将其应用于更适合的领域。

参考文献：