昆仑万维开源Skywork-SWE-32B代码智能体模型

北京 – 在人工智能领域，代码智能体正逐渐崭露头角，成为提升软件开发效率的关键力量。近日，昆仑万维正式开源了其自主研发的Skywork-SWE-32B模型，这款320亿参数规模的软件工程（SWE）基座模型，专注于仓库级代码修复，并在SWE-bench Verified基准测试中取得了令人瞩目的成绩，再次引发业界对AI在软件工程领域应用潜力的关注。

Skywork-SWE-32B：代码修复的“智能医生”

Skywork-SWE-32B并非泛泛而谈的AI模型，而是专注于解决软件开发中的实际痛点——代码缺陷。它能够像一位经验丰富的“代码医生”一样，深入分析GitHub仓库中的代码，精准定位bug，并生成修复代码，最终通过自动化验证，确保修复方案的有效性。

该模型的主要功能包括：

仓库级代码修复： 从问题理解到解决方案验证，Skywork-SWE-32B实现了代码修复的全流程闭环。
多轮交互能力： 模拟真实开发场景，支持超过50轮的交互调试，逐步解决复杂问题。
长文本处理： 能够处理超过32k tokens的长文本，满足复杂代码文件和多文件依赖的处理需求。
自动化验证： 通过专用的运行时环境和单元测试验证机制，确保修复代码的有效性。

技术突破：数据集、框架与测试时扩展

Skywork-SWE-32B取得突破性进展，离不开其背后的技术支撑：

大规模数据集构建： 昆仑万维构建了包含10,169个真实Python任务实例的数据集，覆盖2,531个不同的GitHub仓库。这一数据集的规模和质量，为模型的训练提供了坚实的基础。
OpenHands框架： 模型基于OpenHands代码智能体框架，支持多轮交互和长文本处理，能够模拟真实开发场景中的代码修复过程。
测试时扩展技术（TTS）： 在推理阶段，通过增加独立rollout的数量，进一步提升模型的性能，充分利用模型的推理能力。

在SWE-bench Verified基准测试中，Skywork-SWE-32B取得了38.0%的pass@1准确率，刷新了同参数规模模型的最佳成绩。引入测试时扩展技术后，准确率更是提升至47.0%，显著超越了现有32B以下的开源模型，甚至接近部分闭源模型的性能。

应用前景：提升代码质量、辅助教学研究

Skywork-SWE-32B的开源，为软件开发领域带来了新的可能性。其潜在的应用场景包括：