上海枫泾古镇一角_20240824上海枫泾古镇一角_20240824

摘要: Agentica 与 Together AI 联合开源了 DeepCoder-14B-Preview,一款基于 Deepseek-R1-Distilled-Qwen-14B 微调的代码生成模型。该模型在 LiveCodeBench 上达到 60.6% 的准确率,媲美 OpenAI 的 o3-mini,其开源举措旨在推动强化学习在大型语言模型中的应用,降低训练门槛,促进社区发展。

北京,[当前日期] – 人工智能领域迎来一项重要进展,Agentica 与 Together AI 宣布联合开源其代码生成模型 DeepCoder-14B-Preview。这一举措不仅为开发者社区带来了强大的工具,也标志着强化学习(RL)在大型语言模型(LLM)应用方面迈出了坚实的一步。

DeepCoder-14B-Preview:代码生成的强大引擎

DeepCoder-14B-Preview 基于 Deepseek-R1-Distilled-Qwen-14B 模型进行微调,拥有 140 亿参数,在代码生成任务上表现卓越。尤其值得一提的是,该模型在 LiveCodeBench 上的准确率高达 60.6%,与 OpenAI 的 o3-mini 模型不相上下。

技术解析:DeepCoder-14B-Preview 的核心优势

DeepCoder-14B-Preview 的成功并非偶然,其背后蕴含着多项关键技术:

  • 基础模型: 采用经过蒸馏优化的 Deepseek-R1-Distilled-Qwen-14B 作为基础,确保了强大的语言理解和生成能力。
  • 强化学习微调: 通过分布式强化学习(RL)进行微调,利用奖励机制引导模型生成更高质量的代码,保证代码的准确性和效率。
  • 高质量数据集: 使用经过严格筛选的 24K 个可验证编程问题进行训练,数据来源包括 TACO Verified、PrimeIntellect 的 SYNTHETIC-1 数据集及 LiveCodeBench 提交的问题。
  • 奖励函数设计: 采用基于稀疏结果奖励模型(ORM),只有当生成的代码通过所有采样单元测试时才给予奖励,避免模型通过记忆测试用例来获取奖励。
  • 上下文扩展技术: 迭代上下文扩展技术,使模型从较短的上下文长度开始学习,逐步泛化到更长的上下文,最终在 64K 上下文中达到 60.6% 的准确率。
  • 系统优化: 引入 verl-pipeline,基于流水线技术加速训练过程,减少训练时间,提高训练效率。

DeepCoder-14B-Preview 的广泛应用场景

DeepCoder-14B-Preview 的强大功能使其在多个领域具有广泛的应用前景:

  • 代码生成与自动化编程: 快速生成高质量代码,减少手动编写代码的时间和工作量,提高开发效率。适用于各种编程语言和框架,帮助开发者快速启动项目。
  • 算法竞赛与问题解决: 在算法竞赛(如 Codeforces)中,帮助参赛者快速理解问题并生成高效的解决方案,提升竞赛表现。
  • 代码优化与重构: 对现有代码进行优化和重构,提高代码的可读性、性能和可维护性。帮助开发者识别和修复潜在的代码问题。
  • 教育与学习辅助: 作为编程教育工具,帮助学生理解和实践编程概念,提供代码示例和解决方案,辅助学习编程语言和算法。
  • 软件开发与测试: 生成单元测试代码,确保软件质量;辅助开发过程中的代码调试,帮助开发者快速定位和解决问题,提升软件开发的整体效率。

开源的意义:推动 AI 社区的共同进步

Agentica 和 Together AI 选择开源 DeepCoder-14B-Preview,体现了其推动 AI 社区共同进步的决心。通过开源训练数据集、代码、训练日志和系统优化,他们降低了强化学习(RL)在大型语言模型(LLM)中应用的门槛,为研究人员和开发者提供了宝贵的资源和参考。

项目地址:

结论:

DeepCoder-14B-Preview 的开源,不仅为开发者社区带来了强大的代码生成工具,更重要的是,它推动了强化学习在大型语言模型中的应用,为 AI 领域的未来发展注入了新的活力。我们期待看到 DeepCoder-14B-Preview 在各行各业发挥更大的作用,助力人工智能技术的进步。

参考文献:


>>> Read more <<<

Views: 1

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注