上海AI Lab联手清华，发布轻量级多模态大模型

引言：

在人工智能领域，大型模型以其强大的性能和广泛的应用前景而备受瞩目。然而，其庞大的参数量和高昂的计算成本也限制了其在资源受限环境中的应用。近日，上海人工智能实验室（Shanghai AI Lab）联合清华大学、南京大学等机构，推出了一款名为Mini-InternVL的轻量级多模态大模型，旨在解决这一难题。这款模型以其小巧的体积和卓越的性能，为多模态人工智能的应用开辟了新的道路。

主体：

Mini-InternVL：小身材，大能量

Mini-InternVL，顾名思义，是“迷你版”的书生·万象大模型。它包含了10亿、20亿和40亿三个不同参数规模的版本，通过精巧的设计和优化，在保持模型轻量化的同时，实现了与大型模型相媲美的性能。其中，Mini-InternVL-4B版本仅使用了InternVL2-76B约5%的参数量，却达到了后者约九成的性能，这一突破性进展令人瞩目。

技术解析：轻量化背后的秘密

Mini-InternVL的成功并非偶然，其背后蕴藏着一系列精巧的技术设计：

视觉编码器：InternViT-300M：该模型采用InternViT-300M作为视觉编码器，这是一个轻量级的视觉模型，通过知识蒸馏技术从更强大的InternViT-6B模型中学习，继承了丰富的视觉知识，同时保持了较小的模型参数量。
知识蒸馏：通过将大型教师模型的知识转移到小型学生模型中，使得学生模型能够继承教师模型的性能，这在Mini-InternVL中得到了充分的应用。
MLP投影器：多层感知器（MLP）投影器用于连接视觉编码器和语言模型，将视觉编码器输出的特征向量投影到适合语言模型处理的空间，实现视觉信息和文本信息的有效融合。
动态分辨率输入策略：该策略根据图像的长宽比将其分割成不同大小的瓦片，并进行相应的处理，从而提高处理效率。
像素洗牌操作：通过像素洗牌操作，模型将图像的分辨率降低到原来的四分之一，减少了视觉标记的数量，进一步提高了模型的效率。

多模态能力：理解与推理

Mini-InternVL不仅在参数规模上实现了轻量化，还在多模态理解和推理能力上表现出色。它可以：