引言:
人工智能的浪潮席卷全球,大模型技术日新月异。近期,OpenAI 推出号称最强推理模型的“o1”系列,引发业界广泛关注。然而,真金不怕火炼,是骡子是马,还得拉出来溜溜。机器之心AIxiv专栏近日发布了一份详尽的评测报告,对 OpenAI 的 o1 满血版和 o1 pro mode 模型进行了高难度的数学测试,并与上海人工智能实验室的 InternThinker-Alpha、DeepSeek 的 DeepSeek-R1-Lite、月之暗面 k0-math 以及阿里巴巴 QwQ-32B-Preview 等模型进行了同台竞技。结果显示,OpenAI 的 o1 pro mode 模型在数学推理能力上表现突出,以其卓越的性能和效率,似乎在向世人宣告:“自缘身在最高层”。
主体:
1. 严苛的考场:AGI-EvalMath Pro Bench
本次评测采用的是 AGI-Eval 最新的高难度数学评测集 Math Pro Bench。该测试集题目来源广泛,囊括了全国高中数学联合竞赛、美国数学邀请赛以及全国硕士研究生招生考试等高难度试题,旨在全面考察模型在数学推理方面的能力。值得注意的是,从题型分布来看,各模型在考研数学题上的正确率普遍高于高中数学竞赛题,这或许暗示着考研数学题在知识运用和逻辑性方面更贴合模型的训练模式。然而,这并不意味着考研数学题难度较低,而是反映了模型在处理需要创新思维和深度挖掘的复杂问题时,仍面临挑战。
2. 榜单揭晓:o1 Pro 傲视群雄
评测结果显示,在总计 84 道测试题中,o1 pro mode 以 0.774(65/84)的正确率位居榜首,o1 以 0.750(63/84)紧随其后。这一成绩表明,o1 系列模型在整体数学推理能力上具有显著优势,能够有效应对高难度数学问题。DeepSeek-R1-Lite 的总计正确率为 0.667(56/84),o1-preview 为 0.643(54/84),其他模型的正确率相对较低。
- 高中数学竞赛题: 在这部分测试中,o1 pro mode 和 o1 均以 0.722(39/54)的正确率并列第一,展现出强大的数学思维能力和解题技巧。DeepSeek-R1-Lite 的正确率为 0.611(33/54),其他模型则表现平平。
- 考研数学题: o1 pro mode 以 0.867(26/30)的正确率脱颖而出,o1 的正确率为 0.800(24/30),其他模型的表现参差不齐。
3. 不仅是正确率:o1 Pro 的推理速度与灵活性
除了正确率之外,本次评测还关注了模型的推理速度和灵活性。结果显示,o1 系列模型在推理时间方面具有显著优势。o1的总平均推理时间仅为 33.84 秒,o1 pro mode 更缩短至 33.26 秒,而其他模型的平均推理时间则在 2 分钟以上。此外,o1 和 o1 pro 还会根据题目难度调整推理时间,在竞赛题上的平均推理时间为 34-40 秒,而在考研题上的平均推理时间则为 18-20 秒,约为前者的一半。
更令人惊讶的是,在测试过程中,出现了一些其他模型无法解答的题目,例如:“设 p 是最小的满足存在正整数 n 使得 n^4 + 1 可以被 2 整除的素数。求最小的正整数 m,使得 m^4 + 1 可以被 p^2 整除。” 只有 o1 pro mode 成功解答,这表明 o1 pro mode 在处理具有特殊数学结构和逻辑要求的题目时,具备独特的推理能力和解题思路。
4. 案例分析:
以下是一个具体的案例,展示了 o1 pro mode 在解决复杂数学问题时的能力:
题目: Alice 和 Bob 玩以下游戏。面前有 n 个令牌堆放着。玩家轮流行动,Alice 先行动。在每一回合中,玩家从令牌堆中移除 1 个或 4 个令牌。移除最后一个令牌的玩家获胜。求小于或等于 2024 的正整数 n 的个数,使得 Bob 无论 Alice 如何行动都能保证他获胜。
- o1 pro mode 用时 18 秒解答。
- o1 用时 26 秒解答。
结论:
本次评测结果表明,OpenAI 的 o1 pro mode 模型在数学推理能力上表现出色,不仅在正确率上傲视群雄,而且在推理速度和灵活性方面也具有显著优势。尤其值得关注的是,o1 pro mode 在处理某些具有特殊数学结构和逻辑要求的题目时,展现出了独特的推理能力。这或许意味着,在未来的 AI 发展中,o1 pro mode 有望在需要复杂推理能力的领域发挥更大的作用。
然而,我们也应看到,其他模型在某些方面也展现出了各自的优势。人工智能的发展是一个不断进步的过程,我们期待未来能有更多优秀的模型涌现,共同推动人工智能技术的进步。
参考文献:
- AGI-Eval Math Pro Bench 评测榜单:https://agi-eval.cn/evaluation/Math%20Pro%20Bench
- 机器之心 AIxiv专栏:https://www.jiqizhixin.com/column/AIxiv
(注:本文所有数据均来自机器之心AIxiv专栏的评测报告,并已进行核实。)
Views: 7
