摘要: Agentica 与 Together AI 联合开源了 DeepCoder-14B-Preview,一款基于 Deepseek-R1-Distilled-Qwen-14B 微调的代码生成模型。该模型在 LiveCodeBench 上达到 60.6% 的准确率,媲美 OpenAI 的 o3-mini,其开源举措旨在推动强化学习在大型语言模型中的应用,降低训练门槛,促进社区发展。
北京,[当前日期] – 人工智能领域迎来一项重要进展,Agentica 与 Together AI 宣布联合开源其代码生成模型 DeepCoder-14B-Preview。这一举措不仅为开发者社区带来了强大的工具,也标志着强化学习(RL)在大型语言模型(LLM)应用方面迈出了坚实的一步。
DeepCoder-14B-Preview:代码生成的强大引擎
DeepCoder-14B-Preview 基于 Deepseek-R1-Distilled-Qwen-14B 模型进行微调,拥有 140 亿参数,在代码生成任务上表现卓越。尤其值得一提的是,该模型在 LiveCodeBench 上的准确率高达 60.6%,与 OpenAI 的 o3-mini 模型不相上下。
技术解析:DeepCoder-14B-Preview 的核心优势
DeepCoder-14B-Preview 的成功并非偶然,其背后蕴含着多项关键技术:
- 基础模型: 采用经过蒸馏优化的 Deepseek-R1-Distilled-Qwen-14B 作为基础,确保了强大的语言理解和生成能力。
- 强化学习微调: 通过分布式强化学习(RL)进行微调,利用奖励机制引导模型生成更高质量的代码,保证代码的准确性和效率。
- 高质量数据集: 使用经过严格筛选的 24K 个可验证编程问题进行训练,数据来源包括 TACO Verified、PrimeIntellect 的 SYNTHETIC-1 数据集及 LiveCodeBench 提交的问题。
- 奖励函数设计: 采用基于稀疏结果奖励模型(ORM),只有当生成的代码通过所有采样单元测试时才给予奖励,避免模型通过记忆测试用例来获取奖励。
- 上下文扩展技术: 迭代上下文扩展技术,使模型从较短的上下文长度开始学习,逐步泛化到更长的上下文,最终在 64K 上下文中达到 60.6% 的准确率。
- 系统优化: 引入 verl-pipeline,基于流水线技术加速训练过程,减少训练时间,提高训练效率。
DeepCoder-14B-Preview 的广泛应用场景
DeepCoder-14B-Preview 的强大功能使其在多个领域具有广泛的应用前景:
- 代码生成与自动化编程: 快速生成高质量代码,减少手动编写代码的时间和工作量,提高开发效率。适用于各种编程语言和框架,帮助开发者快速启动项目。
- 算法竞赛与问题解决: 在算法竞赛(如 Codeforces)中,帮助参赛者快速理解问题并生成高效的解决方案,提升竞赛表现。
- 代码优化与重构: 对现有代码进行优化和重构,提高代码的可读性、性能和可维护性。帮助开发者识别和修复潜在的代码问题。
- 教育与学习辅助: 作为编程教育工具,帮助学生理解和实践编程概念,提供代码示例和解决方案,辅助学习编程语言和算法。
- 软件开发与测试: 生成单元测试代码,确保软件质量;辅助开发过程中的代码调试,帮助开发者快速定位和解决问题,提升软件开发的整体效率。
开源的意义:推动 AI 社区的共同进步
Agentica 和 Together AI 选择开源 DeepCoder-14B-Preview,体现了其推动 AI 社区共同进步的决心。通过开源训练数据集、代码、训练日志和系统优化,他们降低了强化学习(RL)在大型语言模型(LLM)中应用的门槛,为研究人员和开发者提供了宝贵的资源和参考。
项目地址:
- 项目官网:https://pretty-radio-b75.notion.site/DeepCoder-A-Fully-Open-Source-14B-Coder
- HuggingFace 模型库:https://huggingface.co/agentica-org/DeepCoder-14B-Preview
结论:
DeepCoder-14B-Preview 的开源,不仅为开发者社区带来了强大的代码生成工具,更重要的是,它推动了强化学习在大型语言模型中的应用,为 AI 领域的未来发展注入了新的活力。我们期待看到 DeepCoder-14B-Preview 在各行各业发挥更大的作用,助力人工智能技术的进步。
参考文献:
- Agentica. (n.d.). DeepCoder-A-Fully-Open-Source-14B-Coder. Retrieved from https://pretty-radio-b75.notion.site/DeepCoder-A-Fully-Open-Source-14B-Coder
- Hugging Face. (n.d.). agentica-org/DeepCoder-14B-Preview. Retrieved from https://huggingface.co/agentica-org/DeepCoder-14B-Preview
Views: 1
