摘要: AI领域再添新星!Together.ai与Agentica联合开源了AI Agent框架DeepSWE,该框架基于Qwen3-32B模型,并采用强化学习进行训练。DeepSWE在SWE-Bench-Verified基准测试中表现卓越,其开源特性将有力推动强化学习在软件工程领域的应用与发展。
北京 – 人工智能(AI)正在以前所未有的速度渗透到各个行业,而软件工程领域也不例外。近日,知名AI公司Together.ai与Agentica联合宣布开源其共同研发的AI Agent框架——DeepSWE。这一举措无疑为软件工程的自动化和智能化注入了新的活力。
DeepSWE基于强大的Qwen3-32B模型,并采用强化学习(RL)进行训练。不同于依赖于更强的专有教师模型的蒸馏或监督微调(SFT)的传统方法,DeepSWE完全从零开始学习,这使得它在面对复杂软件工程任务时能够做出更优的决策。
该框架在SWE-Bench-Verified基准测试中表现出色,测试时扩展(TTS)后的准确率高达59.0%,不使用TTS时Pass@1准确率达42.2%,位列开源Agent框架榜首。这一成绩充分证明了DeepSWE在代码理解、编辑和问题解决方面的强大能力。
DeepSWE的技术亮点:
- 强化学习训练: 完全基于强化学习,不依赖于专有模型,更具自主学习能力。
- rLLM框架: 基于rLLM框架进行训练,提供高效的数据管理和训练流程,支持大规模的强化学习训练。
- 稀疏结果奖励模型: 只有当模型生成的代码补丁通过所有测试时才给予正奖励,促使模型学习生成高质量的解决方案。
- 测试时扩展(TTS): 生成多个轨迹并选择其中正确解决问题的轨迹,显著提高模型的准确率。
- Kubernetes支持: 集成Kubernetes支持,实现容器的弹性调度和自动缩放,确保训练过程的高效性和稳定性。
DeepSWE的应用场景:
DeepSWE的应用潜力巨大,涵盖了软件工程的多个方面:
- 代码理解和编辑: 自动理解和修改代码,快速定位修复漏洞、优化性能瓶颈及重构代码结构。
- 软件问题解决: 高效处理GitHub上的问题、实现新功能及将复杂任务分解为可管理的子任务。
- 自动化测试和验证: 自动生成测试用例,执行代码构建和自动化测试,进行回归测试,确保软件的稳定性和可靠性。
- 多步骤推理和解决方案优化: 基于多步骤推理解决复杂问题,不断迭代优化解决方案,积累经验。
- 开发辅助和协作: 为开发人员提供实时代码建议和补全提示,辅助项目管理和任务分配,促进团队成员之间的协作和交流。
开源的意义:
Together.ai和Agentica选择开源DeepSWE,无疑是加速AI在软件工程领域应用的重要一步。通过开源,开发者可以:
- 学习和改进Agent: 模型训练数据、代码、训练和评估日志等全部开源,助力开发者学习和改进Agent。
- 推动技术发展: 促进强化学习在软件工程领域的应用与发展。
- 共同构建生态: 吸引更多开发者参与,共同构建更加完善的AI Agent生态系统。
DeepSWE的开源,不仅为软件工程领域带来了新的工具,更预示着AI驱动的软件开发模式即将到来。随着技术的不断进步和应用场景的不断拓展,我们有理由相信,AI将在软件工程领域发挥越来越重要的作用。
项目地址:
HuggingFace模型库:https://huggingface.co/agentica-org/DeepSWE-Preview
参考文献:
- Together.ai官方网站
- Agentica官方网站
- Hugging Face模型库
(完)
Views: 0
