性能暴跌39%：多轮对话失效，大模型陷入‘沉睡’危机

引言

“你永远叫不醒装睡的人。” 这句耳熟能详的谚语如今在大型语言模型（LLMs）的世界里找到了新的诠释。多轮对话场景下，这些“装睡”的大模型表现令人失望，性能平均下降39%。经过20万次模拟实验，耗资5000美元，研究人员证实了大模型在多轮对话中的表现远不如单轮对话。这一发现不仅对当前的AI技术提出了挑战，也为未来的研究指明了方向。

大模型的多轮对话挑战

单轮对话 vs 多轮对话

ChatGPT等大模型技术的崛起，将对话场景推向了新的高度。用户可以先提出一个粗糙的问题，再根据模型的回答逐步完善指令、补充细节。然而，现有的性能评估基准主要基于单轮对话机制，其在真实多轮对话场景中的表现尚未得到充分评估。

实验设计

研究人员通过超过20万次的多轮对话模拟实验，对比了15个顶级开源和闭源大模型在单轮和多轮对话场景中的性能差异。结果显示，所有模型在多轮对话中的表现平均下降了39%。

“对话迷失”现象

研究发现，大模型在第一轮回答中往往定下了错误的基调，并在后续对话中依赖这个错误结论，导致“对话迷失”。这种现象显著降低了模型的可靠性，使得在后续提示中添加信息也无法纠正错误。

实验方法

指令分片

研究人员将单轮基准测试任务重新设计为多轮模拟对话场景。通过“半自动化流程”将指令切分为多个分片，每个分片包含原始指令中的一个元素，以模拟多轮、不明确对话。

模拟类型

完全指定（Full）：单轮对话场景，原始指令在第一轮完整提供。
分片（Sharded）：多轮、不明确对话模拟。
合并（Concat）：所有分片合并成一个单轮指令，以bullet-point形式呈现。
总结（Recap）：在最后增加总结轮次，给LLM最后一次回答机会。
滚雪球（Snowball）：每轮对话都进行总结，产生“滚雪球”效应。

实验结果

研究人员使用了600条指令，针对三种主要模拟类型（Full, Concat, Sharded）进行了超过20万次模拟对话。结果显示，每个模型在多轮对话中的表现平均下降39%。

分析与讨论

“对话迷失”的原因

信息丢失：分片过程中可能导致的信息丢失。
不明确性：多轮对话的不明确性使得模型难以维持正确的问答路径。
模型泛化能力：较小的模型在泛化能力上不如较大的模型，重新措辞对较小模型的性能影响更大。

解决方案与展望

改进模型设计：增强模型在多轮对话中的记忆和纠错能力。
新评估基准：建立更贴近真实场景的多轮对话评估基准。
智能体干预：通过“智能体”式干预，缓解“对话迷失”问题。

结论

大模型在多轮对话中的表现显著下降，揭示了当前AI技术在真实应用场景中的局限性。通过深入研究和改进，我们可以期待未来大模型在多轮对话中的表现会有所提升，为用户提供更可靠、更智能的对话体验。

参考文献

论文链接：https://arxiv.org/abs/2505.06120
新智元·2025年06月09日 17:34 大模型多轮对话表现降39%，20万次实验耗资5千美元证实。

通过这篇文章，我们不仅揭示了大模型在多轮对话中的性能问题，还提出了未来的研究方向和可能的解决方案。希望这能为AI研究人员和开发者提供有价值的参考，推动大模型技术的进一步发展。

>>> Read more <<<

一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31

性能暴跌39%：多轮对话失效，大模型陷入‘沉睡’危机

作者智能小编

引言

大模型的多轮对话挑战

单轮对话 vs 多轮对话

实验设计

“对话迷失”现象

实验方法

指令分片

模拟类型

实验结果

分析与讨论

“对话迷失”的原因

解决方案与展望

结论

参考文献

相关文章

当“建工爷叔”网红流量撞上金矿与机器人传闻，周期困境中的上海建工（600170.SH）能否迎来价值重估？

超越包裹：解构顺丰控股（002352.SZ）向综合物流巨头的转型估值与长期价值

华域汽车 (600741.SH): 传统巨擘的电动化转身——深度估值与战略剖析

发表回复取消回复

为您推荐

英维克 (002837.SZ): AI浪潮下的液冷巨擘，高速增长与运营挑战并存

阳光电源（300274.SZ）：储能开启第二成长曲线，价值重估在即的全球光储巨擘

上海电气（601727.SH）：绿色转型催化剂——在周期性巨擘中探寻新质生产力价值

宁德时代（300750.SZ）：储能与全球化驱动下的价值重估

作者智能小编

引言

大模型的多轮对话挑战

单轮对话 vs 多轮对话

实验设计

“对话迷失”现象

实验方法

指令分片

模拟类型

实验结果

分析与讨论

“对话迷失”的原因

解决方案与展望

结论

参考文献

相关文章

发表回复 取消回复

为您推荐

发表回复取消回复