小红书hi lab开源多模态大模型dots.vlm1，媲美顶尖闭源模型

引言：
在人工智能飞速发展的今天，多模态大模型逐渐成为学术界和工业界的焦点。而近日，小红书 Hi Lab 开源了其最新的多模态大模型 Dots.vlm1，该模型基于 12 亿参数的 NaViT 视觉编码器和 DeepSeek V3 LLM 构建，具备强大的视觉感知和文本推理能力。Dots.vlm1 的发布，不仅展示了小红书在人工智能技术研究上的又一重要里程碑，也为多模态模型的研究提供了新的思路和方向。

主体：

模型亮点

NaViT 视觉编码器

Dots.vlm1 的核心亮点之一是其从零训练的 12 亿参数 NaViT 视觉编码器。与大多数依赖于成熟视觉编码器进行微调的模型不同，NaViT 编码器完全从零开始训练，原生支持动态分辨率。通过引入纯视觉监督，NaViT 编码器在视觉感知能力上得到了显著提升。

多模态训练数据

在训练数据方面，Dots.vlm1 不仅使用了传统的 Image Caption 数据，还引入了大量结构化图片数据，如表格、图表、文档和图形等。此外，小红书 Hi Lab 还利用多模态大模型重写了图文交错网页数据，显著提升了训练数据的质量。

模型架构

三阶段训练流程

Dots.vlm1 的训练流程分为三个阶段：
1. 视觉编码器预训练：NaViT 编码器从头训练，旨在最大化对多样视觉数据的感知能力。
2. VLM 预训练：将视觉编码器与 DeepSeek V3 LLM 联合训练，使用大规模、多样化的多模态数据集。
3. VLM 后训练：通过有监督微调（SFT）增强模型的泛化能力，仅使用任务多样的数据进行训练。

NaViT 视觉编码器的两阶段训练策略

NaViT 编码器的训练分为两个阶段：
1. 预训练阶段：从随机初始化开始，在 224×224 分辨率图像上进行训练，使用下一 Token 预测（NTP）和下一 Patch 生成（NPG）双重监督策略。
2. 分辨率提升预训练：逐步提升图像分辨率，从百万像素级别输入开始，在大量 token 上进行训练，之后升级到千万像素级别。

评测结果

在主要的视觉评测集上，Dots.vlm1 的整体表现已接近当前领先模型 Gemini 2.5 Pro 与 Seed-VL1.5 thinking。特别是在 MMMU/MathVision/OCR Reasoning 等基准测试中，Dots.vlm1 取得了相当竞争力的结果，显示出较强的图文理解与推理能力。

样例展示

以下是 Dots.vlm1 在不同任务上的表现示例：
– 复杂图表推理：模型能够准确解析复杂图表，并给出合理的解释。
– STEM 解题：模型能够理解并解决科学、技术、工程和数学（STEM）相关的问题。
– 长尾识别解题：模型在识别长尾分布的数据上表现出色。
– 视觉推理：模型在视觉推理任务中展现了强大的能力。

结论：

Dots.vlm1 作为小红书 Hi Lab 研发并开源的首个多模态大模型，展示了其在视觉感知和文本推理方面的强大能力。尽管在部分细分任务上仍与最优结果存在一定差距，但 Dots.vlm1 已经为开源视觉语言模型树立了新的性能上限。未来，小红书 Hi Lab 计划在视觉感知和推理能力上进一步优化，扩大跨模态互译数据的规模与多样性，并探索更有效的神经网络架构与损失函数设计。

参考文献：
1. 小红书技术 REDTech. (2023). Dots.vlm1 开源多模态大模型.
2. Huggingface Model. (2023). Dots.vlm1 模型.
3. GitHub Repo. (2023). Dots.vlm1 代码库.

加入我们：
我们相信，协作是解决这些

>>> Read more <<<

一	二	三	四	五	六	日
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

小红书hi lab开源多模态大模型dots.vlm1，媲美顶尖闭源模型

作者智能小编

模型亮点

NaViT 视觉编码器

多模态训练数据

模型架构

三阶段训练流程

NaViT 视觉编码器的两阶段训练策略

评测结果

样例展示

相关文章

永新光学 (603297.SH) ：国产替代与新兴业务驱动下的价值重估

来伊份：转型阵痛中的价值重塑与未来突围

北方稀土 (600111.SH): 战略核心资产的价值重估——迎接“戴维斯双击”

发表回复取消回复

为您推荐

永新光学 (603297.SH) ：国产替代与新兴业务驱动下的价值重估

来伊份：转型阵痛中的价值重塑与未来突围

北方稀土 (600111.SH): 战略核心资产的价值重估——迎接“戴维斯双击”

国之重器，芯之所向：新周期与大国博弈下的中芯国际(688981.SH)价值重估

作者智能小编

模型亮点

NaViT 视觉编码器

多模态训练数据

模型架构

三阶段训练流程

NaViT 视觉编码器的两阶段训练策略

评测结果

样例展示

相关文章

发表回复 取消回复

为您推荐

发表回复取消回复