摘要: Agentica 与 Together AI 近日联合开源了 DeepCoder-14B-Preview,一款基于 Deepseek-R1-Distilled-Qwen-14B 微调的大型代码生成模型。该模型在代码生成任务上表现出色,尤其是在 LiveCodeBench 上的准确率达到 60.6%,与 OpenAI 的 o3-mini 相当。此次开源不仅包括模型本身,还包括训练数据集、代码、训练日志和系统优化,旨在推动强化学习(RL)在大型语言模型(LLM)中的应用,降低 RL 训练的门槛,促进社区发展。
北京 – 在人工智能领域,代码生成模型正日益成为提升软件开发效率的关键工具。近日,Agentica 与 Together AI 宣布联合开源 DeepCoder-14B-Preview,一款性能卓越的代码生成模型,为开发者社区带来了新的选择。
技术细节与优势
DeepCoder-14B-Preview 基于 Deepseek-R1-Distilled-Qwen-14B 这一经过蒸馏优化的 140 亿参数预训练模型。其核心优势在于采用了分布式强化学习(RL)进行微调,并通过精巧设计的奖励机制,引导模型生成更高质量的代码。
关键技术亮点包括:
- 强化学习微调: 通过强化学习,模型能够根据奖励机制学习生成更准确、高效的代码。
- 高质量数据集: 使用经过严格筛选的 24K 个可验证编程问题进行训练,确保模型学习到可靠的编程知识。数据来源包括 TACO Verified、PrimeIntellect 的 SYNTHETIC-1 数据集及 LiveCodeBench 提交的问题。
- 稀疏结果奖励模型(ORM): 只有当生成的代码通过所有采样单元测试时才给予奖励,避免模型通过记忆测试用例来获得奖励,从而提升模型的泛化能力。
- 上下文扩展技术: 模型从较短的上下文长度开始学习,逐步泛化到更长的上下文,最终在 64K 上下文中达到 60.6% 的准确率,显示出强大的处理长序列代码的能力。
- 系统优化: 引入 verl-pipeline,基于流水线技术加速训练过程,显著减少训练时间,提高训练效率。
应用场景
DeepCoder-14B-Preview 具有广泛的应用前景,可以显著提升软件开发的效率和质量。
- 代码生成与自动化编程: 快速生成高质量代码,减少手动编写代码的时间和工作量,适用于各种编程语言和框架,帮助开发者快速启动项目。
- 算法竞赛与问题解决: 在算法竞赛(如 Codeforces)中,帮助参赛者快速理解问题并生成高效的解决方案,提升竞赛表现。
- 代码优化与重构: 对现有代码进行优化和重构,提高代码的可读性、性能和可维护性。帮助开发者识别和修复潜在的代码问题。
- 教育与学习辅助: 作为编程教育工具,帮助学生理解和实践编程概念,提供代码示例和解决方案,辅助学习编程语言和算法。
- 软件开发与测试: 生成单元测试代码,确保软件质量;辅助开发过程中的代码调试,帮助开发者快速定位和解决问题,提升软件开发的整体效率。
开源意义
此次 Agentica 与 Together AI 开源 DeepCoder-14B-Preview,不仅为开发者提供了一个强大的代码生成工具,更重要的是,它开放了训练数据集、代码、训练日志和系统优化等关键资源。这将极大地促进强化学习(RL)在大型语言模型(LLM)中的应用,降低 RL 训练的门槛,推动社区共同发展。
项目地址
- 项目官网: https://pretty-radio-b75.notion.site/DeepCoder-A-Fully-Open-Source-14B-Coder
- HuggingFace模型库: https://huggingface.co/agentica-org/DeepCoder-14B-Preview
结论
DeepCoder-14B-Preview 的开源标志着代码生成模型领域的一次重要进展。凭借其强大的性能、广泛的应用场景和开放的资源,它有望加速软件开发流程,降低开发成本,并推动人工智能技术在编程领域的更广泛应用。开发者社区可以期待 DeepCoder-14B-Preview 带来的更多创新和突破。
Views: 3