字节豆包开源Multi-SWE-bench，代码修复新基准

北京 – 在人工智能加速渗透软件开发领域的背景下，字节跳动豆包大模型团队近日开源了Multi-SWE-bench，这是一个多语言代码修复基准，旨在推动AI在全栈工程中的应用。该基准的发布，为开发者提供了一个系统性的评测工具，以评估和提升AI模型在不同编程语言环境下的代码修复能力。

打破Python单一局限，覆盖主流编程语言

Multi-SWE-bench 的核心亮点在于其对多语言的支持。与以往的代码修复基准主要集中于Python不同，Multi-SWE-bench 首次覆盖了包括Java、TypeScript、JavaScript、Go、Rust、C和C++在内的七种主流编程语言。这一突破性的进展，使得开发者能够更全面地评估AI模型在不同编程语言环境下的自动代码修复能力，从而推动AI在更广泛的软件开发场景中的应用。

真实数据驱动，确保基准质量

为了保证数据集的质量和实用性，Multi-SWE-bench 的1632个实例全部来源于真实的开源仓库（GitHub issue）。每个样本都经过统一的测试标准和专业开发者的审核筛选，确保具备清晰的问题描述、正确的修复补丁以及可复现的运行测试环境。这种对真实数据的坚持，使得Multi-SWE-bench 能够更准确地反映实际开发中遇到的问题，从而为AI模型的训练和评估提供更可靠的基础。

难度分级机制，助力模型能力提升

Multi-SWE-bench 引入了任务难度分级机制，将问题划分为简单（Easy）、中等（Medium）和困难（Hard）三类。这种分级方式涵盖了从一行修改到多文件、多步骤、多语义依赖的开发挑战，能够更系统地衡量AI模型在不同能力层次上的表现。开发者可以根据模型的实际能力，选择不同难度的任务进行训练和评估，从而有针对性地提升模型性能。

强化学习支持，加速模型优化

为了支持强化学习（RL）在代码修复任务中的应用，字节跳动豆包团队还开源了Multi-SWE-RL。该社区提供了4723个结构化的训练样本，每个样本均配备可复现的Docker环境，支持一键启动、自动评估和快速接入RL训练框架。这种“评估+训练”的双轮驱动模式，为AI模型的持续优化提供了有力支持。

广泛的应用场景，赋能开发者和研究人员

Multi-SWE-bench 的应用场景十分广泛，不仅可以用于代码修复自动化，减少人工调试的时间和工作量，还可以作为模型性能评估与提升的基准，帮助开发者和研究人员评估模型在不同编程语言和任务难度下的表现。此外，通过对比不同编程语言下的Bug修复能力，研究人员可以更深入地分析各语言的优势和局限性。对于开发者和学习者来说，Multi-SWE-bench 也是一个学习和提升的平台，通过研究和使用该数据集，可以更好地理解不同编程语言中的常见错误和修复方法，提升自身的编程能力和问题解决能力。

项目地址：