谷歌DeepMind发布SigLIP 2多语言视觉模型

摘要： 谷歌DeepMind近日发布了SigLIP 2，这是其SigLIP模型的升级版本，旨在提升图像与文本之间的对齐能力，尤其是在多语言环境下的表现。SigLIP 2通过改进的训练方法和架构，在多语言理解、零样本分类、图像-文本检索等任务中展现出显著的增强。

引言： 在人工智能领域，让机器理解并关联视觉信息和语言描述一直是研究的重点。谷歌DeepMind的SigLIP系列模型正是在这一方向上的重要探索。近日发布的SigLIP 2，作为SigLIP的升级版，不仅延续了其强大的视觉-语言编码能力，更在多语言支持和训练效率上实现了显著提升。

SigLIP 2的核心功能与特性：

多语言支持： SigLIP 2 能够处理多种语言的文本输入，并与图像进行精准匹配，这使得它在跨文化、跨语言的应用场景中具有巨大的潜力。
零样本分类： 无需针对特定任务进行微调，SigLIP 2 即可直接在新的类别上进行分类，这大大降低了模型部署和应用的门槛。
图像-文本检索： SigLIP 2 支持图像到文本以及文本到图像的双向检索，能够快速找到与输入内容最匹配的对应项，这在信息检索、内容推荐等领域具有重要价值。
为大型语言模型提供视觉能力： SigLIP 2 可以作为视觉模块，为其他语言模型提供图像理解能力，从而增强大型语言模型的综合能力。
高效训练与优化： SigLIP 2 采用了 Sigmoid 损失函数，解决了传统对比学习方法（如 CLIP 的 InfoNCE 损失）的存储和计算瓶颈，显著提升了训练效率。

SigLIP 2的技术原理：

SigLIP 2 的技术突破主要体现在以下几个方面：

Sigmoid 损失函数： 采用了 Sigmoid 损失函数替代传统的对比损失函数（如 CLIP 的 InfoNCE 损失），更平衡地学习全局和局部特征，避免了对比学习中常见的计算瓶颈。
自监督学习与解码器预训练： 结合了图像描述预训练和自监督学习方法，如自蒸馏和掩码预测。通过解码器预训练，模型能更好地理解图像区域及其对应的文本描述，提升对细粒度细节的捕捉能力。
动态分辨率支持： 引入了 NaFlex 变体，支持多种分辨率和原始宽高比，能保留图像的空间信息，适用于对分辨率敏感的任务，如文档理解或 OCR。
多语言支持与去偏技术： 在训练中使用了多语言数据集，通过去偏技术减少不公平的性别或文化偏见，使模型在多语言任务中表现更加公平和准确。
全局与局部特征的结合： 通过 Global-Local Loss 和 Masked Prediction Loss，SigLIP 2 能同时关注全局语义和局部细节，在密集预测任务（如语义分割和深度估计）中表现更优。

SigLIP 2的应用场景：

SigLIP 2 的强大功能使其在多个领域具有广泛的应用前景：