豆包大模型联手M-A-P，知识推理新基准发布！

北京 – 在人工智能领域，大语言模型（LLM）的能力评估一直是研究人员和开发者关注的焦点。近日，字节跳动豆包大模型团队联合 M-A-P 开源了 SuperGPQA，一个全面覆盖 285 个研究生级学科、包含 26529 道专业题目的知识推理基准测试集，旨在更真实、更全面地评估 LLM 的泛化能力和推理水平。这一举措有望解决传统评测基准学科覆盖不全、题目质量存疑和评测维度单一等问题，为 AI 模型的优化提供更可靠的参考。

SuperGPQA：更全面、更深入的评估

SuperGPQA 的推出，源于对现有 LLM 评估体系的深刻反思。传统的评测基准往往存在学科覆盖面窄、题目质量参差不齐、难以有效衡量模型的真实推理能力等问题。SuperGPQA 通过以下几个关键特性，力求突破这些局限：

广泛的学科覆盖： 涵盖 285 个研究生级学科，包括 STEM（科学、技术、工程、数学）和非 STEM（哲学、文学、历史等）领域，甚至覆盖了轻工业、农业、服务科学等长尾学科，能够更全面地衡量 LLM 在不同领域的知识储备和推理能力。
高质量的题目设计： 题目由专家与 LLM 协同构建，确保题目的高质量和高难度。42.33% 的题目需要数学计算或严谨推理，有效避免了模型仅仅依靠知识记忆就能获得高分的现象，更能揭示模型的真实推理能力。
严格的质量控制： 通过基于规则的初步过滤、基于 LLM 的质量检测和专家复审等多重机制，确保题目的高质量和高区分度，降低数据泄漏风险，提升题目的可靠性。

技术原理：专家与 LLM 的协同

SuperGPQA 的构建并非一蹴而就，而是融合了专家知识和 LLM 技术的结晶。其技术原理主要体现在以下几个方面：

来源筛选： 专家从教科书、权威练习网站等可信来源筛选和收集原始问题，避免了众包标注可能带来的低质量风险。
转录与规范化： 专家对原始问题进行语言规范化和格式转换，确保所有问题具备统一的学术语言和标准多项选择题格式。
多模型协作验证： 在质量检验阶段，使用 GPT-4、Gemini-flash 等多个先进的 LLM 进行多维度检测，进一步提升题目的可靠性和区分度。
跨学科语义结构设计： 基于 t-SNE 等可视化技术分析题目语义结构，确保不同学科领域的语言特色得以保留，在工程和科学类问题中保持语义相似性。

应用场景：赋能 AI 研究与教育

SuperGPQA 的开源，将为 AI 研究和教育领域带来多重价值：

模型性能评估： 提供了一个全面衡量大语言模型在多学科领域的知识和推理能力的基准。
模型优化指导： 帮助研究人员发现模型不足，优化训练策略，提升模型的性能。
跨学科分析： 支持不同学科对模型能力的对比研究，促进跨学科的知识融合。
教育研究： 可用于开发智能教育工具和研究 AI 在教育中的应用，推动教育领域的创新。
行业应用测试： 为智能客服、医疗辅助等行业应用提供测试工具，助力 AI 技术在各行业的落地。

项目地址：

项目官网：https://supergpqa.github.io/
GitHub 仓库：https://github.com/SuperGPQA/SuperGPQA
HuggingFace 模型库：https://huggingface.co/datasets/m-a-p/SuperGPQA
arXiv 技术论文：https://arxiv.org/pdf/2502.14739

结语：

SuperGPQA 的发布，标志着 LLM 评估进入了一个新的阶段。它不仅提供了一个更全面、更深入的评估基准，也为 AI 研究人员和开发者提供了一个优化模型、探索 AI 应用的有力工具。随着 SuperGPQA 的广泛应用，我们有理由期待，AI 技术将在更多领域发挥更大的作用，为人类社会带来更多的福祉。

参考文献：