AI 大模型的推理能力:苹果新论文引发的争议

引言:

人工智能(AI)大模型,如 GPT-3 和 Bard,展现出令人惊叹的语言能力,甚至能生成看似合理的文本和代码。然而,它们真的能像我们理解的那样「思考」或「推理」吗?最近,苹果的一篇论文引发了热议,它质疑了 AI 大模型的推理能力,并指出它们可能只是在模仿训练数据中的模式,而非真正理解问题。

苹果论文揭示 AI 大模型的局限性:

这篇题为「GSM-Symbolic: Understanding the Limitations of Mathematical Reasoning in Large Language Models」的论文,由苹果机器学习研究工程师 Iman Mirzadeh 等人撰写。他们通过一系列精心设计的数学问题,揭示了 AI 大模型在推理方面的脆弱性。

论文中,研究人员发现,即使是 OpenAI 最新最强的 o1-preview 模型,也无法准确解决一些看似简单的数学问题。例如,在一个关于奥利弗摘猕猴桃的数学题中,研究人员添加了一句无关紧要的「废话」:「其中 5 个比平均大小要小」。结果,o1-preview 模型被误导,并给出了错误的答案。

研究人员认为,这种现象表明,AI 大模型并没有真正理解问题,而只是在模仿训练数据中的模式。当遇到与训练数据不符的细节时,它们就会出现错误。

争议与反驳:

苹果的论文引发了AI 研究领域的热烈讨论。一些研究者赞同论文的观点,认为 AI 大模型的推理能力被高估了。例如,Keras 之父 François Chollet 和美国心理学家 Gary Marcus 都转发了这篇论文,并表达了对 AI 大模型能力的质疑。

然而,来自 OpenAI 的一位研究者反驳了该论文,他指出,许多顶级的 LLM 实际上是聊天模型,它们被训练来处理混乱的聊天环境,需要猜测用户意图并利用所有提供的信息。因此,当这些模型将这种行为泛化应用于数学问题时,它们的表现并不是因为缺乏推理能力,而是因为这是它们被训练遵循的预期行为。

结论与展望:

苹果的这篇论文为 AI 大模型的推理能力提出了新的质疑,并引发了关于 AI 发展方向的思考。虽然 AI 大模型在语言生成和信息检索方面取得了显著进展,但它们在真正理解和推理方面仍然存在局限性。

未来的研究需要进一步探索 AI 大模型的推理机制,并开发新的训练方法,帮助它们更好地理解和解决复杂问题。同时,我们也需要谨慎看待 AI 大模型的能力,避免过度依赖它们,并将其应用于更适合的领域。

参考文献:


>>> Read more <<<

Views: 0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注