AI论文新基准：Claude力压群雄，问鼎榜首！

旧金山 — 人工智能正在加速渗透到科学研究的各个领域，从辅助工具逐渐转变为创新引擎。近日，OpenAI 发布了 PaperBench 基准测试，旨在评估 AI 智能体自主复现前沿人工智能研究的能力。测试结果显示，Anthropic 的 Claude 3.5 Sonnet 在众多模型中脱颖而出，取得了领先地位，引发了业界对 AI 在科研领域潜力与风险的广泛关注。

PaperBench：AI 复现论文的新标杆

PaperBench 是一项极具挑战性的测试，它要求 AI 智能体在没有原始代码参考的情况下，仅凭论文内容，自主完成代码编写、实验执行和结果复现。这项任务的难度极高，即使是人类专家也需要数天时间才能完成。

该基准测试选取了 ICML 2024 机器学习顶会的 20 篇论文，涵盖深度强化学习、鲁棒性、概率方法等 12 个研究主题。每篇论文都配备了详细的评分标准，由原论文作者协作制定，以确保评估的准确性和可靠性。

OpenAI 强调，PaperBench 的设计初衷并非鼓励 AI 简单地模仿现有研究，而是考察其理解、推理和自主解决问题的能力。测试过程中，智能体被禁止访问论文作者的原始代码库，必须完全依靠自身能力从零开始构建代码。

Claude 3.5 Sonnet 崭露头角

在 PaperBench 测试中，Claude 3.5 Sonnet 在配备基础代理框架的情况下，获得了 21.0% 的得分，领先于其他参与测试的模型。这一成绩表明，Claude 3.5 Sonnet 在理解复杂科研论文、编写代码和复现实验结果方面具备了相当的实力。

为了更深入地评估 AI 智能体的能力，研究团队还选取了 3 篇论文组成测试子集，并与人类机器学习博士的表现进行了对比。在 48 小时的测试时间内，人类基准达到了 41.4% 的得分，而 GPT-4（o1）在相同子集上获得了 26.6% 的得分。

此外，研究团队还开发了一个轻量级评估版本 ——PaperBench Code-Dev，在该版本中，GPT-4 的表现提升至 43.4% 的得分。

AI 科研的未来：机遇与挑战并存

PaperBench 的推出和测试结果，引发了人们对 AI 在科研领域应用的深入思考。一方面，AI 智能体具备自动撰写 AI/机器学习研究论文的能力，无疑将加速机器学习领域的发展，推动科研效率的提升。另一方面，我们也需要审慎评估 AI 能力的安全发展，确保其在科研领域的应用符合伦理规范，避免潜在的风险。

OpenAI 强调，PaperBench 将在多个重要的 AI 安全框架中发挥评估作用，包括 OpenAI 准备框架、Anthropic 负责任扩展政策和谷歌 DeepMind 前沿安全框架。

专家观点

“PaperBench 的发布是 AI 科研领域的一个重要里程碑，”一位不愿透露姓名的 AI 专家表示，“它不仅提供了一个评估 AI 智能体科研能力的客观标准，也为我们深入了解 AI 在科研领域的潜力与局限性提供了宝贵的机会。”

另一位专家则指出：“AI 在科研领域的应用需要谨慎对待。我们需要确保 AI 的发展方向与人类的价值观相符，避免其被滥用或产生意想不到的负面影响。”

参考文献