周五. 5 月 1st, 2026

小红书hi lab开源文本大模型：dots.llm1

作者智能小编

6 月 17, 2025 #小红书, #每日AI快讯

北京时间[当前日期] – 小红书Hi Lab近日宣布开源其研发的中等规模混合专家模型（Mixture of Experts，MoE）文本大模型Dots.LLM1。该模型拥有1420亿参数，激活参数为140亿，并在11.2T高质量token数据上进行了预训练。这一举措为大模型社区提供了丰富的研究基础，有望加速大模型技术的发展。

Dots.LLM1是什么？

Dots.LLM1是由小红书Hi Lab团队打造的基于Decoder-only Transformer的MoE模型。它采用6in128 Expert配置，意味着每个token最多激活6个专家，总共有128个专家。这种架构的优势在于，在1420亿参数中，每次前向传播仅激活140亿参数，通过门控机制选择最相关的专家进行计算，从而显著提高计算效率。

技术亮点：高效训练与微调

为了实现高效的训练，Hi Lab团队采用了多种先进技术：

高效数据处理和训练框架: 使用11.2T高质量token数据进行预训练，数据来源包括Common Crawl和自有Spider抓取的web数据，经过多轮清洗和过滤，确保数据质量。
Interleaved 1F1B流水并行和Grouped GEMM优化: 采用Interleaved 1F1B流水并行的AlltoAll overlap和高效Grouped GEMM实现，显著提升训练效率。
两阶段监督微调: 对全量数据进行两轮基础训练，基于采样、动态学习率调整等技术，初步释放模型潜力。针对数学与代码等特定领域，引入拒绝采样微调，结合验证器筛选高置信度重要样本，进一步提升模型的推理性能。
学习率调度与超参数优化: 基于WSD学习率调度方式，在学习率稳定阶段保持3e-4训练10T token语料，退火阶段分两个阶段训练1.2T token语料，逐步降低学习率。在训练过程中，调整batch size等超参数，确保训练过程稳定，避免出现loss spike。

Dots.LLM1的主要功能与应用场景

Dots.LLM1具备强大的文本生成、指令遵循、知识问答、数学与代码推理以及多轮对话能力，应用场景广泛：

内容创作： 辅助写作文案、故事、新闻等，提供创意灵感与写作建议。
教育学习： 用于语言学习、编程教育和知识问答，辅助学习者提升能力。
商业办公： 构建智能客服，生成数据分析和市场调研报告，助力企业运营。
编程开发： 生成代码片段、代码文档，提供调试建议，提高开发效率。
个人助理： 管理日程、规划任务、整理信息，提升个人工作与生活效率。

性能表现与竞争力

基于精心设计的数据处理流程和两阶段监督微调，Dots.LLM1在中英文通用场景、数学、代码等任务上表现出色，与Qwen2.5-72B等模型相比具有较强的竞争力。

开源计划与资源

Hi Lab团队开源了Pretrain阶段每1T token的checkpoint和Instruct模型，为大模型社区提供丰富的研究基础。

GitHub仓库： https://github.com/rednote-hilab/dots.llm1
HuggingFace模型库： https://huggingface.co/rednote-hilab/dots.llm1
arXiv技术论文： https://github.com/rednote-hilab/dots.llm1/blob/main/dots1techreport.pdf

结语

小红书Hi Lab开源Dots.LLM1，不仅展示了其在大模型领域的研发实力，也为整个AI社区贡献了宝贵的资源。Dots.LLM1的开源将促进大模型技术的进一步发展，并推动其在各个领域的应用。未来，我们期待看到更多基于Dots.LLM1的研究和创新，共同构建更加智能化的未来。

参考文献

rednote-hilab. (n.d.). dots.llm1. GitHub. Retrieved from https://github.com/rednote-hilab/dots.llm1
rednote-hilab. (n.d.). dots.llm1. Hugging Face. Retrieved from https://huggingface.co/rednote-hilab/dots.llm1
rednote-hilab. (n.d.). dots1techreport.pdf. GitHub. Retrieved from https://github.com/rednote-hilab/dots.llm1/blob/main/dots1techreport.pdf

>>> Read more <<<

Views: 0

相关文章

AI生成 NEWS 公司估值智能新闻

永新光学 (603297.SH) ：国产替代与新兴业务驱动下的价值重估

2 月 7, 2026 既智

AI生成 NEWS 智能新闻

来伊份：转型阵痛中的价值重塑与未来突围

12 月 26, 2025 既智

AI生成 NEWS 智能新闻

北方稀土 (600111.SH): 战略核心资产的价值重估——迎接“戴维斯双击”

12 月 26, 2025 既智

发表回复取消回复

图库

90年代申花出租车司机夜晚在车内看文汇报

黄山的油菜花

90年代的黄河路

shanghai

上海的陆家嘴

上海的陆家嘴

在上海浦东滨江公园观赏外滩建筑群-20240824

上海枫泾古镇一角_20240824

上海宝山炮台湿地公园的蓝天白云

为您推荐

AI生成 NEWS 公司估值智能新闻

永新光学 (603297.SH) ：国产替代与新兴业务驱动下的价值重估

2026年2月7日

AI生成 NEWS 智能新闻

来伊份：转型阵痛中的价值重塑与未来突围

2025年12月26日

AI生成 NEWS 智能新闻

北方稀土 (600111.SH): 战略核心资产的价值重估——迎接“戴维斯双击”

2025年12月26日

AI生成 NEWS 公司估值

国之重器，芯之所向：新周期与大国博弈下的中芯国际(688981.SH)价值重估

2025年12月26日