最新消息最新消息

引言:
在人工智能飞速发展的今天,多模态大模型逐渐成为学术界和工业界的焦点。而近日,小红书 Hi Lab 开源了其最新的多模态大模型 Dots.vlm1,该模型基于 12 亿参数的 NaViT 视觉编码器和 DeepSeek V3 LLM 构建,具备强大的视觉感知和文本推理能力。Dots.vlm1 的发布,不仅展示了小红书在人工智能技术研究上的又一重要里程碑,也为多模态模型的研究提供了新的思路和方向。

主体:

模型亮点

NaViT 视觉编码器

Dots.vlm1 的核心亮点之一是其从零训练的 12 亿参数 NaViT 视觉编码器。与大多数依赖于成熟视觉编码器进行微调的模型不同,NaViT 编码器完全从零开始训练,原生支持动态分辨率。通过引入纯视觉监督,NaViT 编码器在视觉感知能力上得到了显著提升。

多模态训练数据

在训练数据方面,Dots.vlm1 不仅使用了传统的 Image Caption 数据,还引入了大量结构化图片数据,如表格、图表、文档和图形等。此外,小红书 Hi Lab 还利用多模态大模型重写了图文交错网页数据,显著提升了训练数据的质量。

模型架构

三阶段训练流程

Dots.vlm1 的训练流程分为三个阶段:
1. 视觉编码器预训练:NaViT 编码器从头训练,旨在最大化对多样视觉数据的感知能力。
2. VLM 预训练:将视觉编码器与 DeepSeek V3 LLM 联合训练,使用大规模、多样化的多模态数据集。
3. VLM 后训练:通过有监督微调(SFT)增强模型的泛化能力,仅使用任务多样的数据进行训练。

NaViT 视觉编码器的两阶段训练策略

NaViT 编码器的训练分为两个阶段:
1. 预训练阶段:从随机初始化开始,在 224×224 分辨率图像上进行训练,使用下一 Token 预测(NTP)和下一 Patch 生成(NPG)双重监督策略。
2. 分辨率提升预训练:逐步提升图像分辨率,从百万像素级别输入开始,在大量 token 上进行训练,之后升级到千万像素级别。

评测结果

在主要的视觉评测集上,Dots.vlm1 的整体表现已接近当前领先模型 Gemini 2.5 Pro 与 Seed-VL1.5 thinking。特别是在 MMMU/MathVision/OCR Reasoning 等基准测试中,Dots.vlm1 取得了相当竞争力的结果,显示出较强的图文理解与推理能力。

样例展示

以下是 Dots.vlm1 在不同任务上的表现示例:
复杂图表推理:模型能够准确解析复杂图表,并给出合理的解释。
STEM 解题:模型能够理解并解决科学、技术、工程和数学(STEM)相关的问题。
长尾识别解题:模型在识别长尾分布的数据上表现出色。
视觉推理:模型在视觉推理任务中展现了强大的能力。

结论:

Dots.vlm1 作为小红书 Hi Lab 研发并开源的首个多模态大模型,展示了其在视觉感知和文本推理方面的强大能力。尽管在部分细分任务上仍与最优结果存在一定差距,但 Dots.vlm1 已经为开源视觉语言模型树立了新的性能上限。未来,小红书 Hi Lab 计划在视觉感知和推理能力上进一步优化,扩大跨模态互译数据的规模与多样性,并探索更有效的神经网络架构与损失函数设计。

参考文献:
1. 小红书技术 REDTech. (2023). Dots.vlm1 开源多模态大模型.
2. Huggingface Model. (2023). Dots.vlm1 模型.
3. GitHub Repo. (2023). Dots.vlm1 代码库.

加入我们:
我们相信,协作是解决这些


>>> Read more <<<

Views: 0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注