上海人工智能实验室发布百亿级多模态数据集 OmniCorpus,推动多模态大模型发展

上海,2024年6月28日– 上海人工智能实验室今日宣布发布百亿级多模态数据集 OmniCorpus,该数据集包含86亿张图像和16960亿个文本标记,支持中英双语。OmniCorpus 由上海人工智能实验室联合多所知名高校及研究机构共同构建,旨在推动多模态大语言模型的研究和应用。

规模庞大,质量领先

OmniCorpus 是目前全球规模最大的多模态数据集之一,其规模和质量都超越了现有的同类数据集。该数据集整合了来自网站和视频平台的文本和视觉内容,涵盖了多种语言和领域,提供了丰富的数据多样性。

多模态学习支持,应用场景广泛

OmniCorpus 支持多模态机器学习模型的训练和研究,例如图像识别、视觉问答和图像描述。该数据集可以用于开发各种应用,包括:

  • 视觉问答 (VQA):构建能理解图像内容并回答相关问题的系统。
  • 图像描述生成:开发自动为图片生成描述性文字的系统。
  • 内容推荐系统:结合图像和文本数据,提供更精准的个性化内容推荐。

技术优势显著

OmniCorpus 拥有以下技术优势:

  • 大规模数据集成:整合了海量图像和文本数据,构成了目前最大的多模态数据集之一。
  • 高效的数据引擎:开发了高效的数据管道,能处理和过滤大规模的多模态数据,确保数据的快速处理和高质量输出。
  • 丰富的数据多样性:数据来源于多种语言和不同类型的网站,以及视频平台,提供了广泛的数据多样性。
  • 灵活的数据格式:采用流式数据格式,可以轻松适应不同的数据结构和研究需求。
  • 高质量的数据保证:通过细致的预处理步骤和人类反馈机制,提高了数据集的整体质量。
  • 先进的过滤技术:使用 BERT 模型和人工反馈来优化文本过滤,减少无关内容和噪声。
  • 主题建模分析:基于 LDA 等技术进行主题建模,帮助研究者理解数据集的内容分布和主题多样性。

开放共享,促进科研发展

OmniCorpus 在 GitHub 上公开可用,任何研究者都可以免费获取和使用该数据集。上海人工智能实验室希望通过开放共享的方式,促进多模态大语言模型的研究和应用,推动人工智能技术的发展。

专家观点

“OmniCorpus 的发布将为多模态大语言模型的研究提供宝贵的数据资源,”上海人工智能实验室主任助理、研究员[专家姓名]表示,“该数据集的规模和质量将推动多模态人工智能技术的突破,并为未来的应用场景带来更多可能性。”

未来展望

上海人工智能实验室表示,未来将继续完善 OmniCorpus,并开发更多功能和应用,为人工智能领域的研究和发展提供更多支持。

关于上海人工智能实验室

上海人工智能实验室是上海市政府支持建设的公益性研究机构,致力于人工智能基础理论研究、关键技术攻关和应用场景探索。实验室汇聚了国内外顶尖人工智能人才,在多个领域取得了突破性成果。


>>> Read more <<<

Views: 3

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注