百亿级多模态数据集OmniCorpus震撼发布，中英双语助AI飞跃

上海人工智能实验室发布百亿级多模态数据集 OmniCorpus，推动多模态大模型发展

上海，2024年6月28日– 上海人工智能实验室今日宣布发布百亿级多模态数据集 OmniCorpus，该数据集包含86亿张图像和16960亿个文本标记，支持中英双语。OmniCorpus 由上海人工智能实验室联合多所知名高校及研究机构共同构建，旨在推动多模态大语言模型的研究和应用。

规模庞大，质量领先

OmniCorpus 是目前全球规模最大的多模态数据集之一，其规模和质量都超越了现有的同类数据集。该数据集整合了来自网站和视频平台的文本和视觉内容，涵盖了多种语言和领域，提供了丰富的数据多样性。

多模态学习支持，应用场景广泛

OmniCorpus 支持多模态机器学习模型的训练和研究，例如图像识别、视觉问答和图像描述。该数据集可以用于开发各种应用，包括：

技术优势显著

OmniCorpus 拥有以下技术优势：

开放共享，促进科研发展

OmniCorpus 在 GitHub 上公开可用，任何研究者都可以免费获取和使用该数据集。上海人工智能实验室希望通过开放共享的方式，促进多模态大语言模型的研究和应用，推动人工智能技术的发展。

专家观点

“OmniCorpus 的发布将为多模态大语言模型的研究提供宝贵的数据资源，”上海人工智能实验室主任助理、研究员[专家姓名]表示，“该数据集的规模和质量将推动多模态人工智能技术的突破，并为未来的应用场景带来更多可能性。”

未来展望

上海人工智能实验室表示，未来将继续完善 OmniCorpus，并开发更多功能和应用，为人工智能领域的研究和发展提供更多支持。

关于上海人工智能实验室

上海人工智能实验室是上海市政府支持建设的公益性研究机构，致力于人工智能基础理论研究、关键技术攻关和应用场景探索。实验室汇聚了国内外顶尖人工智能人才，在多个领域取得了突破性成果。