大模型的“幻觉”:一场关于认知信任的众包实验

引言:

自 ChatGPT 横空出世,大型语言模型(LLM)在文本生成、信息检索等领域展现出惊人的能力,甚至在某些方面超越了人类。然而,LLM 也存在一个令人担忧的缺陷——“幻觉”。它们会生成看似真实但实际上并非事实、无意义或与给定提示不一致的回应,这不仅会传播错误信息,更可能在关键决策应用中造成严重后果。

哈佛大学最新研究:LLM 等价于众包,只是在输出“网络共识”

最近,哈佛大学的研究人员发布了一篇报告,对 LLM 产生“幻觉”的原因进行了深入研究。他们通过向多个 LLM 提出了一系列晦涩难懂和有争议的问题,发现模型的输出准确性高度依赖于训练数据的质量和数量。

研究结果表明,LLM 在处理具有广泛共识的问题时表现良好,但面对争议性或信息不足的主题时,则容易产生误导性的回答。这就好比 LLM 是一个巨大的“众包”系统,它从互联网上收集海量数据,并根据这些数据中的共现词概率来生成文本。当一个主题有普遍共识时,LLM 的输出能够反映出这种共识观点;但当没有足够关于主题的语言示例,或者主题有争议时,LLM 就可能生成似是而非的结果。

认知信任:从科学到众包

研究人员指出,LLM 的“幻觉”问题本质上是一个关于“认知信任”的哲学问题。我们如何相信用语言表达的东西是真实的?

科学是一种基于经验和实验的认知信任机制,通过同行评审来确保知识的可靠性。而互联网的出现,则带来了另一种认知信任机制——众包。

众包利用群体智慧来解决问题,例如维基百科和 Reddit 平台,用户可以通过投票来决定最恰当的答案。LLM 可以被看作是这种众包信任机制的延伸,它从互联网上收集海量数据,并根据这些数据中的共现词概率来生成文本。

实验结果:验证“众包”假设

为了验证“众包”假设,研究人员设计了一系列实验,测试了 LLM 在不同主题上的表现。实验结果表明,当主题越晦涩或有争议时,LLM 产生“幻觉”的可能性就越高。

例如,当要求 LLM 提供关于铁电性的科学论文时,模型虽然能提供正确的引文格式,但内容却基本都是错误的。这说明 LLM 无法理解这些主题的复杂性,只能根据训练数据中的共现词概率来生成文本。

结论:警惕 LLM 的“幻觉”,拥抱负责任的 AI

哈佛大学的研究结果为我们敲响了警钟,LLM 的“幻觉”问题并非小事一桩,它可能导致错误信息的传播,甚至在关键决策应用中造成严重后果。

我们需要警惕 LLM 的“幻觉”,并拥抱负责任的 AI 开发和应用。这需要我们不断提升 LLM 的训练数据质量,并开发更有效的评估方法,以确保 LLM 的输出准确可靠。

参考文献:

作者: 资深新闻记者和编辑,曾供职于新华社、人民日报、中央电视台、华尔街日报、纽约时报等媒体。


>>> Read more <<<

Views: 0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注