北京时间[当前日期] – 小红书Hi Lab近日宣布开源其研发的中等规模混合专家模型(Mixture of Experts,MoE)文本大模型Dots.LLM1。该模型拥有1420亿参数,激活参数为140亿,并在11.2T高质量token数据上进行了预训练。这一举措为大模型社区提供了丰富的研究基础,有望加速大模型技术的发展。

Dots.LLM1是什么?

Dots.LLM1是由小红书Hi Lab团队打造的基于Decoder-only Transformer的MoE模型。它采用6in128 Expert配置,意味着每个token最多激活6个专家,总共有128个专家。这种架构的优势在于,在1420亿参数中,每次前向传播仅激活140亿参数,通过门控机制选择最相关的专家进行计算,从而显著提高计算效率。

技术亮点:高效训练与微调

为了实现高效的训练,Hi Lab团队采用了多种先进技术:

  • 高效数据处理和训练框架: 使用11.2T高质量token数据进行预训练,数据来源包括Common Crawl和自有Spider抓取的web数据,经过多轮清洗和过滤,确保数据质量。
  • Interleaved 1F1B流水并行和Grouped GEMM优化: 采用Interleaved 1F1B流水并行的AlltoAll overlap和高效Grouped GEMM实现,显著提升训练效率。
  • 两阶段监督微调: 对全量数据进行两轮基础训练,基于采样、动态学习率调整等技术,初步释放模型潜力。针对数学与代码等特定领域,引入拒绝采样微调,结合验证器筛选高置信度重要样本,进一步提升模型的推理性能。
  • 学习率调度与超参数优化: 基于WSD学习率调度方式,在学习率稳定阶段保持3e-4训练10T token语料,退火阶段分两个阶段训练1.2T token语料,逐步降低学习率。在训练过程中,调整batch size等超参数,确保训练过程稳定,避免出现loss spike。

Dots.LLM1的主要功能与应用场景

Dots.LLM1具备强大的文本生成、指令遵循、知识问答、数学与代码推理以及多轮对话能力,应用场景广泛:

  • 内容创作: 辅助写作文案、故事、新闻等,提供创意灵感与写作建议。
  • 教育学习: 用于语言学习、编程教育和知识问答,辅助学习者提升能力。
  • 商业办公: 构建智能客服,生成数据分析和市场调研报告,助力企业运营。
  • 编程开发: 生成代码片段、代码文档,提供调试建议,提高开发效率。
  • 个人助理: 管理日程、规划任务、整理信息,提升个人工作与生活效率。

性能表现与竞争力

基于精心设计的数据处理流程和两阶段监督微调,Dots.LLM1在中英文通用场景、数学、代码等任务上表现出色,与Qwen2.5-72B等模型相比具有较强的竞争力。

开源计划与资源

Hi Lab团队开源了Pretrain阶段每1T token的checkpoint和Instruct模型,为大模型社区提供丰富的研究基础。

结语

小红书Hi Lab开源Dots.LLM1,不仅展示了其在大模型领域的研发实力,也为整个AI社区贡献了宝贵的资源。Dots.LLM1的开源将促进大模型技术的进一步发展,并推动其在各个领域的应用。未来,我们期待看到更多基于Dots.LLM1的研究和创新,共同构建更加智能化的未来。

参考文献


>>> Read more <<<

Views: 0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注