MINT-1T

arXiv2024-06-17 更新2024-06-19 收录

下载链接：

https://github.com/mlfoundations/MINT-1T

下载链接

链接失效反馈

资源简介：

MINT-1T是由华盛顿大学和Salesforce Research合作创建的开放源代码多模态交错数据集，包含一万亿文本令牌和三十亿图像，是目前最大且最多样化的开放源代码多模态交错数据集。数据集内容丰富，涵盖HTML、PDF和ArXiv等多种来源，旨在通过提供大规模、多样化的训练数据，推动前沿大型多模态模型（LMMs）的发展，解决现有开放源代码多模态数据集规模和多样性不足的问题。

MINT-1T is an open-source multimodal interleaved dataset co-created by Washington University and Salesforce Research. It contains 1 trillion text tokens and 3 billion images, making it the largest and most diverse open-source multimodal interleaved dataset to date. The dataset boasts rich content sourced from diverse origins including HTML, PDF, ArXiv and other materials. It aims to provide large-scale and diverse training data to advance the development of state-of-the-art large multimodal models (LMMs), and address the insufficient scale and diversity of existing open-source multimodal datasets.

提供机构：

华盛顿大学

创建时间：

2024-06-17

AI搜集汇总

数据集介绍

构建方式

MINT-1T数据集通过整合多种来源的数据构建，包括HTML、PDF和ArXiv文档，从而实现了对现有开源数据集的十倍规模扩展。构建过程中，采用了复杂的文本和图像过滤技术，以确保数据的质量和多样性。具体步骤包括从CommonCrawl和ArXiv中提取数据，进行文本质量过滤、去重处理以及图像筛选，最终形成了一个包含一万亿文本标记和三十亿图像的庞大集合。

使用方法

MINT-1T数据集适用于训练大规模多模态模型，特别是在图像和文本交叉处理的场景中。使用者可以通过下载数据集的JSON分片文件，获取包含文本和图像链接的文档。在训练模型时，建议采用混合数据批次，即50%的图像-文本配对数据和50%的多模态交叉数据，以最大化模型的多模态理解能力。此外，数据集还提供了详细的文档和代码，帮助用户理解和复现实验结果。

背景与挑战

背景概述

MINT-1T数据集由华盛顿大学、Salesforce研究、斯坦福大学和加州大学伯克利分校的研究团队联合创建，旨在解决开源大规模多模态交错数据集的稀缺问题。该数据集包含了1万亿个文本标记和30亿张图像，相较于现有的开源数据集，规模扩大了10倍。MINT-1T不仅涵盖了HTML文档，还首次纳入了PDF和ArXiv论文等未被充分利用的数据源。其核心研究问题在于如何有效地扩展和多样化多模态交错数据集，以支持前沿大规模多模态模型（LMMs）的训练。该数据集的发布极大地促进了多模态模型研究的发展，为开源社区提供了宝贵的资源。

当前挑战

MINT-1T数据集在构建过程中面临多项挑战。首先，扩展多模态交错数据集的工程难度远超单一文本或图像-文本对数据集，需要处理更大的文档规模并保持图像与文本的原始顺序。其次，数据集的多样性要求从如CommonCrawl的PDF和ArXiv等新来源中收集高质量的多模态文档，这增加了数据处理的复杂性。此外，确保数据集的安全性，过滤掉不安全或不适当的内容，以及去除重复数据，都是构建过程中必须克服的难题。这些挑战不仅影响了数据集的质量，也对后续模型的训练和性能产生了深远的影响。

常用场景

经典使用场景

MINT-1T 数据集的经典使用场景主要集中在训练前沿的大型多模态模型（LMMs）。由于其包含了丰富的图像和文本交错序列，该数据集特别适用于需要处理自由形式图像和文本序列的模型训练。通过利用 MINT-1T 的高质量和多样性，研究人员能够开发出在多模态任务中表现卓越的模型，尤其是在图像描述生成、视觉问答和多模态推理等任务中。

解决学术问题

MINT-1T 数据集解决了当前开放源代码多模态数据集在规模和多样性上的显著不足。它通过提供一万亿文本标记和三十亿图像，极大地扩展了现有开放源代码数据集的规模，填补了这一领域的空白。这不仅促进了多模态模型的研究，还为开发更强大、更透明的开放源代码模型提供了必要的资源。

实际应用

在实际应用中，MINT-1T 数据集可以用于构建和优化各种多模态应用，如智能助手、内容推荐系统和教育工具。通过训练基于 MINT-1T 的模型，这些应用能够更准确地理解和生成图像和文本内容，从而提升用户体验和系统性能。此外，该数据集还可用于开发新的多模态学习算法和评估现有算法的性能。

数据集最近研究