谷歌DeepMind再发力：PaliGemma 2 mix视觉升级！

摘要： 谷歌DeepMind近日发布了其最新的多任务视觉语言模型PaliGemma 2 Mix。该模型集成了图像描述、目标检测、图像分割、光学字符识别（OCR）以及文档理解等多种功能，并提供不同参数规模和分辨率选择，旨在为开发者提供更灵活、更强大的视觉语言处理能力。

正文：

人工智能领域持续发展，视觉语言模型（VLM）作为连接图像和文本的关键技术，正不断突破界限。近日，谷歌DeepMind发布了PaliGemma 2 Mix，这款升级版的VLM在多任务处理能力上实现了显著提升，引起了业界的广泛关注。

PaliGemma 2 Mix的核心优势在于其集成了多种视觉和语言处理能力。这意味着，开发者不再需要为不同的任务训练和部署多个模型，而是可以通过简单的提示切换，在单一模型中实现图像描述、目标检测、图像分割、OCR以及文档理解等功能。这种多任务处理能力极大地简化了开发流程，降低了资源消耗，并提高了效率。

该模型提供三种不同参数规模（3B、10B、28B），满足不同场景的需求。同时，PaliGemma 2 Mix支持224px和448px两种分辨率，兼顾了性能与资源平衡。这意味着，开发者可以根据实际应用场景选择合适的模型规模和分辨率，以达到最佳的性能和效率。

PaliGemma 2 Mix基于开源框架（如Hugging Face Transformers、Keras、PyTorch等）开发，易于使用和扩展。开发者可以通过简单提示切换任务，无需额外加载模型。这种开源性和易用性降低了开发门槛，吸引了更多的开发者参与到VLM的研究和应用中。

技术原理：

PaliGemma 2 Mix的模型架构由三个核心组件构成：

SigLIP 图像编码器： 使用 SigLIP-So400m 作为图像编码器，通过对比预训练的方式将图像转换为一系列 token。编码器支持多种输入分辨率（如 224px²、448px² 和 896px²），分别生成 256、1024 和 4096 个 token。
Gemma-2B 语言模型： 作为解码器，负责处理文本输入和生成输出。通过 SentencePiece 分词器将文本转换为 token，与图像 token 结合。
线性投影层： 将 SigLIP 输出的图像 token 投影到与 Gemma-2B 词汇 token 相同的维度，两者能有效融合。

PaliGemma 2 Mix 的训练分为三个阶段：

基础多模态任务训练： 将预训练的 SigLIP 和 Gemma-2B 结合，在包含 10 亿样本的多模态任务混合数据集上进行联合训练。目标是提升模型在多种任务中的迁移能力，训练分辨率为 224px²。
逐步提高分辨率的训练： 在 448px² 和 896px² 的分辨率下分别训练 5000 万和 1000 万样本。增加了高分辨率任务的权重，延长了输出序列长度，以支持复杂任务（如长文本 OCR）。
微调到具体任务： 对阶段 1 或阶段 2 的检查点进行微调，适应特定任务，如视觉问答（VQA）、文档理解、长篇描述生成等。

应用场景：

PaliGemma 2 Mix的应用场景十分广泛，包括：