谷歌DeepMind发布千亿级视觉语言数据集WebLI-100B

摘要： 谷歌DeepMind近日推出WebLI-100B，一个包含1000亿图像-文本对的超大规模视觉语言数据集。该数据集旨在通过海量数据，提升视觉语言模型（VLMs）对长尾概念、文化多样性和多语言内容的理解能力，为训练更具包容性的多模态模型提供重要的基础资源。

正文：

人工智能领域正迎来数据驱动的新纪元。近日，谷歌DeepMind发布了WebLI-100B数据集，再次印证了数据规模对于AI模型发展的重要性。WebLI-100B并非横空出世，而是对原有WebLI数据集的扩展，其核心在于收集并整理了高达1000亿个图像-文本对，成为目前已知最大的视觉语言数据集之一。

那么，WebLI-100B究竟有何特别之处？

首先，规模是其最显著的优势。相较于以往的视觉语言数据集，WebLI-100B的规模扩大了十倍，这为模型训练提供了前所未有的丰富资源。海量数据能够有效提升模型对复杂概念的理解能力，尤其是在处理“长尾”数据时，即那些出现频率较低但又至关重要的信息。

其次，WebLI-100B在构建过程中，有意保留了尽可能多的语言和文化多样性。研究人员仅进行了基本的数据过滤，例如移除有害图像和个人身份信息（PII），旨在避免过度干预可能导致的文化偏见。这种策略使得模型能够更好地理解和生成与不同文化相关的视觉和语言内容，从而增强其跨文化交流的能力。

WebLI-100B的技术原理：

WebLI-100B的构建过程主要包括数据收集、数据过滤和数据处理三个环节：

数据收集： 数据主要来源于互联网，通过大规模网络爬取获取图像及其对应的文本描述，如图像的alt文本或页面标题。
数据过滤： 仅进行基本的数据过滤，移除有害图像和个人身份信息，以保留数据的多样性。研究中也探讨了使用CLIP等模型进行质量过滤，但考虑到可能减少某些文化背景的代表性，最终采取了较为宽松的过滤策略。
数据处理： 对文本数据使用多语言mt5分词器进行分词处理，确保文本的多样性和一致性。图像则被调整为224×224像素的分辨率，以适应模型的输入要求。

WebLI-100B的应用场景：

WebLI-100B的发布，无疑将为人工智能领域带来深远影响。其潜在的应用场景包括：