OmniCorpus

Name: OmniCorpus
Creator: 上海人工智能实验室
Published: 2024-07-12 16:54:51
License: 暂无描述

arXiv2024-07-12 更新2024-06-14 收录

下载链接：

https://github.com/OpenGVLab/OmniCorpus

下载链接

链接失效反馈

官方服务：

资源简介：

OmniCorpus是由上海人工智能实验室等机构创建的统一多模态语料库，包含86亿图像和1696亿文本标记，数据规模巨大。该数据集通过高效的数据引擎从英语和非英语网站以及视频平台等多种来源收集，支持多种数据格式，如纯文本、图像-文本对和交错格式。创建过程中，采用了先进的数据处理技术和人工反馈过滤，确保数据质量。OmniCorpus主要应用于多模态大型语言模型的研究，旨在提升模型的理解和生成能力。

OmniCorpus is a unified multimodal corpus created by institutions including Shanghai AI Laboratory and other organizations. It contains 8.6 billion images and 169.6 billion text tokens, with an exceptionally large data scale. Collected from diverse sources such as English and non-English websites, video platforms and more via an efficient data engine, this corpus supports multiple data formats including plain text, image-text pairs and interleaved formats. During its creation, advanced data processing technologies and human feedback-based filtering are adopted to ensure data quality. OmniCorpus is mainly applied to multimodal large language model research, aiming to enhance the models' understanding and generation capabilities.

提供机构：

上海人工智能实验室

创建时间：

2024-06-13

搜集汇总

数据集介绍

构建方式

OmniCorpus数据集的构建过程首先从多个来源收集数据，包括Common Crawl、中文网站和视频平台。使用高效的数据引擎，我们筛选和提取了大规模的高质量文档，这些文档包含86亿张图像和1696万亿个文本标记。数据引擎包括五个关键阶段：主体提取、初步文本过滤、文档去重、图像下载和过滤以及详细文本过滤。每个阶段都旨在提高数据的质量和多样性，确保最终的数据集既庞大又具有高可用性。

使用方法

OmniCorpus数据集的使用方法包括：1) 作为多模态大语言模型的预训练数据；2) 作为图像字幕和视觉问答等任务的训练数据；3) 作为图像-文本对和纯文本语料库的来源。数据集以流数据格式存储，可以方便地进行数据读取、可视化和数据清洗。研究人员可以根据需要选择不同的数据结构，例如纯文本语料库、图像-文本对和交错数据格式，以适应不同的研究需求。

背景与挑战

背景概述

在多模态大型语言模型（MLLMs）的研究中，图像-文本交错数据集扮演着关键角色。这些数据集模仿了互联网数据的呈现方式，并与人阅读习惯相似，有助于多模态情境学习。然而，现有的图像-文本交错数据集在规模和多样性方面存在限制，制约了MLLMs的发展。为了解决这个问题，OmniCorpus数据集应运而生，这是一个拥有百亿级别的图像-文本交错数据集。该数据集由上海人工智能实验室等机构的研究人员创建，旨在提供大规模、高质量、多样化的图像-文本交错数据，为MLLMs的研究提供坚实的基础。

当前挑战

构建大规模、高质量的图像-文本交错数据集面临以下挑战：1) 多样化的数据来源：现有的数据来源相对单一，主要集中在美国的Common Crawl网站，且图像资源趋于枯竭。2) 大规模数据处理：需要高效、可扩展和可并行化的数据引擎来处理海量的多模态数据。3) 高质量的图像和文本数据：需要全面的图像和文本过滤器，以确保生成的文本语料库与LLMs原始训练数据保持同样的高质量。OmniCorpus数据集通过引入非英语网站和视频平台的数据，并开发了一个高效的数据处理引擎，以及人类反馈过滤器来确保数据质量，从而应对了这些挑战。

常用场景

经典使用场景

OmniCorpus数据集作为目前最大的多模态数据集，其经典使用场景在于为多模态大型语言模型（MLLMs）的训练提供数据基础。该数据集包含了10亿级别的图像和1.696万亿级别的文本标记，能够支持MLLMs在多模态情境学习中的能力提升，并保持大语言模型在多模态微调过程中的能力。OmniCorpus数据集的独特之处在于其丰富的数据来源，包括英语和非英语网站以及视频中心网站，使得数据集具有更高的多样性和灵活性。

解决学术问题

OmniCorpus数据集解决了当前多模态数据集规模有限、多样性不足的问题，为多模态大型语言模型的研究提供了重要的数据基础。该数据集的规模和多样性远远超过其他同类数据集，如MMC4和OBELICS，从而能够更好地支持多模态模型的研究和开发。此外，OmniCorpus数据集的灵活格式也使其能够适应不同的数据结构，包括纯文本语料库、图像-文本对和图像-文本交错格式，进一步推动了多模态模型的研究。

实际应用

OmniCorpus数据集在实际应用场景中，主要用于多模态模型的训练和优化，以提高模型在图像描述、视觉问答等任务中的性能。例如，OmniCorpus数据集可以用于训练图像描述模型，使其能够根据图像生成准确的文本描述；也可以用于训练视觉问答模型，使其能够根据图像回答相关的问题。此外，OmniCorpus数据集还可以用于多模态信息检索、多模态推荐系统等领域，以提高系统的准确性和鲁棒性。

数据集最近研究