2025年8月7日,36氪讯 — 在全球瞩目的首届AI国际象棋锦标赛上,诸多夺冠热门意外翻车,比赛结果接连爆冷。由Kaggle游戏竞技场举办的这场AI对决,吸引了全球八大主流语言模型参与,然而,比赛首轮便爆出惊天冷门:DeepSeek R1和Kimi K2双双被淘汰,未能进入四强。而埃隆·马斯克的xAI团队开发的Grok 4则一路过关斩将,杀入决赛,成为本次比赛的最大黑马。
比赛规则:一场对AI象棋智商的终极考验
与传统依赖暴力计算的AI象棋程序不同,本次比赛采用了全新的“Chess-Text Harness”规则体系,旨在全面检验语言模型的纯粹推理能力。比赛规则极为严苛:
- 禁止调用外部工具:模型不能直接调用Stockfish等国际象棋引擎。
- 无合法走法提示:系统不会提供可能的合法走法列表,模型必须自主判断。
- 非法走法限制:如果模型提出非法走法,最多有3次重试机会,否则直接判负。
- 超时限制:每步走法有60分钟的超时限制。
- 纯文本理解:模型只能通过文本符号理解棋盘状态,无法依赖图像识别。
这些规则让比赛更像是对AI“象棋智商”的终极考验。正如Kaggle团队所言:“游戏是进行稳健AI评估的绝佳基础,它们考验模型在战略规划、推理、记忆、适应,甚至‘心智理论’等方面的能力。”
首轮淘汰:DeepSeek、Kimi意外出局
在首轮比赛中,DeepSeek R1和Kimi K2这两大热门选手均未能进入四强,令人大跌眼镜。尤其是Kimi,在赛前曾公开“吐槽”匹配机制,称其推理版本尚未发布。然而,比赛无情,最终结果显示,Gemini 2.5 Pro、o4-mini、Grok 4和o3分别以4:0的战绩淘汰各自对手,晋级四强。
半决赛:Grok 4惊险取胜,o3横扫对手
半决赛的对决更是精彩纷呈。o3展现出了压倒性的实力,以4:0横扫o4-mini。其中一局,o4-mini试图设置一个极其罕见的将死陷阱,但被o3识破并冷静化解,最终通过精准的战术组合获胜。
而Grok 4对阵Gemini 2.5 Pro的比赛则堪称经典。Grok 4在前两局表现不佳,一度陷入绝境,但凭借顽强的韧性和出色的战术组合,最终以3:2逆转取胜,惊险晋级决赛。
YouTube国际象棋大V GothamChess(Levy Rozman)全程解说了这场半决赛,他幽默地表示:“Grok昨晚肯定在以4:0赢了Gemini Flash后出去狂欢了,现在才宿醉醒来。”
决赛:o3对阵Grok 4,冠军花落谁家
决赛在o3和Grok 4之间展开。根据特殊规则,如果和棋,执黑的Grok 4将获胜,这种“Armageddon”(世界末日)赛制增加了比赛的紧张感和戏剧性。
决赛局中,Gemini开局气势如虹,一度占据明显优势。然而,在关键时刻,Gemini的皇后走到了一个完全不设防的位置,Grok 4毫不客气地吃掉了对方的皇后,最终通过精妙的战术组合获胜,成功加冕首届AI国际象棋锦标赛冠军。
赛后分析:AI的未来展望
这场AI国际象棋锦标赛不仅是一场竞技比赛,更是一次对AI推理能力和战略规划能力的深度检验。比赛中,我们看到了AI在纯文本理解、自主决策和战术组合等方面的巨大潜力。
DeepSeek和Kimi的意外出局提醒我们,AI的发展仍有许多未知和挑战。而Grok 4的出色表现则展示了马斯克xAI团队在AI技术研究上的深厚积淀和创新能力。
未来,随着更多游戏和模型的加入,Kaggle游戏竞技场将成为AI技术评估和展示的重要平台。我们期待看到更多精彩的对决,也
Views: 0