近期,斯坦福大学的研究人员对热门AI聊天机器人ChatGPT进行了研究。他们发现,ChatGPT在处理不同任务的能力在几个月内有所波动。研究团队评估了ChatGPT在几个月内处理不同类型任务的性能。他们发现,ChatGPT的性能在不同时间段出现了不一致的现象。
具体来说,GPT-4在3月份的数学问题和质数识别方面的准确率为97.6%,但三个月后下降到2.4%。相反,GPT-3.5在这些任务上的准确率从7.4%提高到了86.8%。此外,研究人员还发现,在编写代码和视觉推理方面也存在类似的波动。
斯坦福大学计算机科学教授James Zou表示,这种性能波动可能是微调模型所带来的意外后果。当修改模型的一部分以提高某个任务的表现时,其他任务可能会受到负面影响。这种影响的原因尚不清楚,因为没有人知道ChatGPT是如何运作的,而且它的代码不是开源的。
研究人员还注意到,随着时间的推移,ChatGPT的回答不仅变得越来越不准确,而且停止解释其推理过程。这使得研究和衡量ChatGPT的性能变得非常困难。
总的来说,这一研究发现揭示了调整大型语言模型以改善特定任务可能会导致意外的副作用,从而影响其他任务的表现。这项研究已经发表在arXiv上,目前正在等待同行评审。
【来源】https://www.ithome.com/0/717/680.htm
Views: 5