哈佛揭秘：LLM只是“网络共识”的复读机？

大模型的“幻觉”：一场关于认知信任的众包实验

引言：

自 ChatGPT 横空出世，大型语言模型（LLM）在文本生成、信息检索等领域展现出惊人的能力，甚至在某些方面超越了人类。然而，LLM 也存在一个令人担忧的缺陷——“幻觉”。它们会生成看似真实但实际上并非事实、无意义或与给定提示不一致的回应，这不仅会传播错误信息，更可能在关键决策应用中造成严重后果。

哈佛大学最新研究：LLM 等价于众包，只是在输出“网络共识”

最近，哈佛大学的研究人员发布了一篇报告，对 LLM 产生“幻觉”的原因进行了深入研究。他们通过向多个 LLM 提出了一系列晦涩难懂和有争议的问题，发现模型的输出准确性高度依赖于训练数据的质量和数量。

研究结果表明，LLM 在处理具有广泛共识的问题时表现良好，但面对争议性或信息不足的主题时，则容易产生误导性的回答。这就好比 LLM 是一个巨大的“众包”系统，它从互联网上收集海量数据，并根据这些数据中的共现词概率来生成文本。当一个主题有普遍共识时，LLM 的输出能够反映出这种共识观点；但当没有足够关于主题的语言示例，或者主题有争议时，LLM 就可能生成似是而非的结果。

认知信任：从科学到众包

研究人员指出，LLM 的“幻觉”问题本质上是一个关于“认知信任”的哲学问题。我们如何相信用语言表达的东西是真实的？

科学是一种基于经验和实验的认知信任机制，通过同行评审来确保知识的可靠性。而互联网的出现，则带来了另一种认知信任机制——众包。

众包利用群体智慧来解决问题，例如维基百科和 Reddit 平台，用户可以通过投票来决定最恰当的答案。LLM 可以被看作是这种众包信任机制的延伸，它从互联网上收集海量数据，并根据这些数据中的共现词概率来生成文本。

实验结果：验证“众包”假设

为了验证“众包”假设，研究人员设计了一系列实验，测试了 LLM 在不同主题上的表现。实验结果表明，当主题越晦涩或有争议时，LLM 产生“幻觉”的可能性就越高。

例如，当要求 LLM 提供关于铁电性的科学论文时，模型虽然能提供正确的引文格式，但内容却基本都是错误的。这说明 LLM 无法理解这些主题的复杂性，只能根据训练数据中的共现词概率来生成文本。

结论：警惕 LLM 的“幻觉”，拥抱负责任的 AI

哈佛大学的研究结果为我们敲响了警钟，LLM 的“幻觉”问题并非小事一桩，它可能导致错误信息的传播，甚至在关键决策应用中造成严重后果。

我们需要警惕 LLM 的“幻觉”，并拥抱负责任的 AI 开发和应用。这需要我们不断提升 LLM 的训练数据质量，并开发更有效的评估方法，以确保 LLM 的输出准确可靠。

参考文献：

作者： 资深新闻记者和编辑，曾供职于新华社、人民日报、中央电视台、华尔街日报、纽约时报等媒体。

>>> Read more <<<

一	二	三	四	五	六	日
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

哈佛揭秘：LLM只是“网络共识”的复读机？

作者智能小编

大模型的“幻觉”：一场关于认知信任的众包实验

相关文章

永新光学 (603297.SH) ：国产替代与新兴业务驱动下的价值重估

来伊份：转型阵痛中的价值重塑与未来突围

北方稀土 (600111.SH): 战略核心资产的价值重估——迎接“戴维斯双击”

发表回复取消回复

为您推荐

永新光学 (603297.SH) ：国产替代与新兴业务驱动下的价值重估

来伊份：转型阵痛中的价值重塑与未来突围

北方稀土 (600111.SH): 战略核心资产的价值重估——迎接“戴维斯双击”

国之重器，芯之所向：新周期与大国博弈下的中芯国际(688981.SH)价值重估

作者智能小编

大模型的“幻觉”：一场关于认知信任的众包实验

相关文章

发表回复 取消回复

为您推荐

发表回复取消回复