MINT-1T-HTML

Hugging Face2024-07-25 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/mlfoundations/MINT-1T-HTML

下载链接

链接失效反馈

官方服务：

资源简介：

MINT-1T是一个开源的多模态交错数据集，包含1万亿文本标记和34亿张图像，是现有开源数据集的10倍规模。此外，还包括了以前未被利用的来源，如PDF和ArXiv论文。MINT-1T旨在促进多模态预训练的研究。该数据集由华盛顿大学与Salesforce Research以及其他学术机构（包括斯坦福大学、德克萨斯大学奥斯汀分校和加州大学伯克利分校）合作创建。数据集包括从2017年到2024年的HTML文档、PDF文档和ArXiv论文，总共包含10.568亿份文档。数据集通过多步骤的处理和过滤，包括文档提取、内容过滤、图像处理和文本处理，以确保内容的相关性和可读性。尽管努力减少个人和敏感信息的包含，但用户应意识到数据可能仍包含一些敏感信息，并建议根据具体使用情况进行额外过滤。

MINT-1T is an open-source interleaved multimodal dataset containing 1 trillion text tokens and 3.4 billion images, with a scale 10 times that of existing open-source datasets. In addition, it includes previously underutilized sources such as PDF documents and ArXiv papers. MINT-1T aims to advance research in multimodal pre-training. This dataset was developed in collaboration with the University of Washington, Salesforce Research, and other academic institutions including Stanford University, The University of Texas at Austin, and the University of California, Berkeley. The dataset covers HTML documents, PDF documents, and ArXiv papers spanning from 2017 to 2024, with a total of 1.0568 billion documents. The dataset underwent multi-stage processing and filtering, including document extraction, content filtering, image processing, and text processing, to ensure the relevance and readability of the content. While efforts have been made to reduce the inclusion of personal and sensitive information, users should be aware that the dataset may still contain some sensitive data, and additional filtering based on specific use cases is recommended.

创建时间：

2024-07-21

原始信息汇总

数据集概述

基本信息

许可证: CC-BY-4.0
任务类别:
- 图像到文本
- 文本生成
语言: 英语
标签: 多模态
名称: MINT-1T
大小: 100B<n<1T

数据集配置

配置名称: CC-MAIN-2024-18
- 数据文件:
  - 分割: 训练
  - 路径: CC-MAIN-2024-18/*
配置名称: CC-MAIN-2024-10
- 数据文件:
  - 分割: 训练
  - 路径: CC-MAIN-2024-10/*
配置名称: CC-MAIN-2023-50
- 数据文件:
  - 分割: 训练
  - 路径: CC-MAIN-2023-50/*
配置名称: CC-MAIN-2023-40
- 数据文件:
  - 分割: 训练
  - 路径: CC-MAIN-2023-40/*
配置名称: CC-MAIN-2023-23
- 数据文件:
  - 分割: 训练
  - 路径: CC-MAIN-2023-23/*
配置名称: CC-MAIN-2023-14
- 数据文件:
  - 分割: 训练
  - 路径: CC-MAIN-2023-14/*
配置名称: CC-MAIN-2023-06
- 数据文件:
  - 分割: 训练
  - 路径: CC-MAIN-2023-06/*
配置名称: CC-MAIN-2022-49
- 数据文件:
  - 分割: 训练
  - 路径: CC-MAIN-2022-49/*
配置名称: CC-MAIN-2022-40
- 数据文件:
  - 分割: 训练
  - 路径: CC-MAIN-2022-40/*
配置名称: CC-MAIN-2022-33
- 数据文件:
  - 分割: 训练
  - 路径: CC-MAIN-2022-33/*
配置名称: CC-MAIN-2022-27
- 数据文件:
  - 分割: 训练
  - 路径: CC-MAIN-2022-27/*
配置名称: CC-MAIN-2022-21
- 数据文件:
  - 分割: 训练
  - 路径: CC-MAIN-2022-21/*
配置名称: CC-MAIN-2022-05
- 数据文件:
  - 分割: 训练
  - 路径: CC-MAIN-2022-05/*
配置名称: CC-MAIN-2021-49
- 数据文件:
  - 分割: 训练
  - 路径: CC-MAIN-2021-49/*
配置名称: CC-MAIN-2021-43
- 数据文件:
  - 分割: 训练
  - 路径: CC-MAIN-2021-43/*
配置名称: CC-MAIN-2021-39
- 数据文件:
  - 分割: 训练
  - 路径: CC-MAIN-2021-39/*
配置名称: CC-MAIN-2021-31
- 数据文件:
  - 分割: 训练
  - 路径: CC-MAIN-2021-31/*
配置名称: CC-MAIN-2021-25
- 数据文件:
  - 分割: 训练
  - 路径: CC-MAIN-2021-25/*
配置名称: CC-MAIN-2021-21
- 数据文件:
  - 分割: 训练
  - 路径: CC-MAIN-2021-21/*
配置名称: CC-MAIN-2021-17
- 数据文件:
  - 分割: 训练
  - 路径: CC-MAIN-2021-17/*
配置名称: CC-MAIN-2021-10
- 数据文件:
  - 分割: 训练
  - 路径: CC-MAIN-2021-10/*
配置名称: CC-MAIN-2021-04
- 数据文件:
  - 分割: 训练
  - 路径: CC-MAIN-2021-04/*
配置名称: CC-MAIN-2020-50
- 数据文件:
  - 分割: 训练
  - 路径: CC-MAIN-2020-50/*
配置名称: CC-MAIN-2020-45
- 数据文件:
  - 分割: 训练
  - 路径: CC-MAIN-2020-45/*
配置名称: CC-MAIN-2020-40
- 数据文件:
  - 分割: 训练
  - 路径: CC-MAIN-2020-40/*
配置名称: CC-MAIN-2020-34
- 数据文件:
  - 分割: 训练
  - 路径: CC-MAIN-2020-34/*
配置名称: CC-MAIN-2020-29
- 数据文件:
  - 分割: 训练
  - 路径: CC-MAIN-2020-29/*
配置名称: CC-MAIN-2020-24
- 数据文件:
  - 分割: 训练
  - 路径: CC-MAIN-2020-24/*
配置名称: CC-MAIN-2020-16
- 数据文件:
  - 分割: 训练
  - 路径: CC-MAIN-2020-16/*
配置名称: CC-MAIN-2020-10
- 数据文件:
  - 分割: 训练
  - 路径: CC-MAIN-2020-10/*
配置名称: CC-MAIN-2020-05
- 数据文件:
  - 分割: 训练
  - 路径: CC-MAIN-2020-05/*
配置名称: CC-MAIN-2019-51
- 数据文件:
  - 分割: 训练
  - 路径: CC-MAIN-2019-51/*
配置名称: CC-MAIN-2019-47
- 数据文件:
  - 分割: 训练
  - 路径: CC-MAIN-2019-47/*
配置名称: CC-MAIN-2019-43
- 数据文件:
  - 分割: 训练
  - 路径: CC-MAIN-2019-43/*
配置名称: CC-MAIN-2019-39
- 数据文件:
  - 分割: 训练
  - 路径: CC-MAIN-2019-39/*
配置名称: CC-MAIN-2019-35
- 数据文件:
  - 分割: 训练
  - 路径: CC-MAIN-2019-35/*
配置名称: CC-MAIN-2019-30
- 数据文件:
  - 分割: 训练
  - 路径: CC-MAIN-2019-30/*
配置名称: CC-MAIN-2019-26
- 数据文件:
  - 分割: 训练
  - 路径: CC-MAIN-2019-26/*
配置名称: CC-MAIN-2019-22
- 数据文件:
  - 分割: 训练
  - 路径: CC-MAIN-2019-22/*
配置名称: CC-MAIN-2019-18
- 数据文件:
  - 分割: 训练
  - 路径: CC-MAIN-2019-18/*
配置名称: CC-MAIN-2019-13
- 数据文件:
  - 分割: 训练
  - 路径: CC-MAIN-2019-13/*
配置名称: CC-MAIN-2018-51
- 数据文件:
  - 分割: 训练
  - 路径: CC-MAIN-2018-51/*
配置名称: CC-MAIN-2018-47
- 数据文件:
  - 分割: 训练
  - 路径: CC-MAIN-2018-47/*
配置名称: CC-MAIN-2018-43
- 数据文件:
  - 分割: 训练
  - 路径: CC-MAIN-2018-43/*
配置名称: CC-MAIN-2018-39
- 数据文件:
  - 分割: 训练
  - 路径: CC-MAIN-2018-39/*
配置名称: CC-MAIN-2018-34
- 数据文件:
  - 分割: 训练
  - 路径: CC-MAIN-2018-34/*
配置名称: CC-MAIN-2018-30
- 数据文件:
  - 分割: 训练
  - 路径: CC-MAIN-2018-30/*
配置名称: CC-MAIN-2018-26
- 数据文件:
  - 分割: 训练
  - 路径: CC-MAIN-2018-26/*
配置名称: CC-MAIN-2018-22
- 数据文件:
  - 分割: 训练
  - 路径: CC-MAIN-2018-22/*
配置名称: CC-MAIN-2018-17
- 数据文件:
  - 分割: 训练
  - 路径: CC-MAIN-2018-17/*
配置名称: CC-MAIN-2018-13
- 数据文件:
  - 分割: 训练
  - 路径: CC-MAIN-2018-13/*
配置名称: CC-MAIN-2018-09
- 数据文件:
  - 分割: 训练
  - 路径: CC-MAIN-2018-09/*
配置名称: CC-MAIN-2018-05
- 数据文件:
  - 分割: 训练
  - 路径: CC-MAIN-2018-05/*
配置名称: CC-MAIN-2017-51
- 数据文件:
  - 分割: 训练
  - 路径: CC-MAIN-2017-51/*
配置名称: CC-MAIN-2017-47
- 数据文件:
  - 分割: 训练
  - 路径: CC-MAIN-2017-47/*
配置名称: CC-MAIN-2017-43
- 数据文件:
  - 分割: 训练
  - 路径: CC-MAIN-2017-43/*
配置名称: CC-MAIN-2017-39
- 数据文件:
  - 分割: 训练
  - 路径: CC-MAIN-2017-39/*
配置名称: CC-MAIN-2017-34
- 数据文件:
  - 分割: 训练
  - 路径: CC-MAIN-2017-34/*
配置名称: CC-MAIN-2017-30
- 数据文件:
  - 分割: 训练
  - 路径: CC-MAIN-2017-30/*
配置名称: CC-MAIN-2017-26
- 数据文件:
  - 分割: 训练
  - 路径: CC-MAIN-2017-26/*
配置名称: CC-MAIN-2017-22
- 数据文件:
  - 分割: 训练
  - 路径: CC-MAIN-2017-22/*

数据集详情

数据集来源

HTML文档: 从2017年到2024年的CommonCrawl WARC转储中筛选
PDF文档: 从2023年到2024年的CommonCrawl WAT转储中提取
ArXiv文档: 来自ArXiv仓库的论文子集

数据集大小

总计包含1056.8百万份文档
- 1029.4百万份HTML文档
- 26.8百万份PDF文档
- 0.6百万份ArXiv文档

数据收集和处理

文档提取:
- HTML文档从CommonCrawl WARC文件中解析
- PDF文档从CommonCrawl WAT文件中提取
- ArXiv论文直接从ArXiv S3存储桶中获取
过滤过程:
- 应用文本质量过滤器以确保内容相关性和可读性
- 在段落和文档级别删除重复内容
- 根据预定义标准过滤掉不良内容
- 验证HTML文档的图像可用性和质量
- 限制PDF大小为50MB和50页以管理数据集大小和质量
图像处理:
- 使用NSFW图像检测移除色情或其他不良图像
- 移除小于150像素或大于20,000像素的图像
- 调整HTML（2:1）和PDF（3:1）的宽高比阈值以保留科学图表
文本处理:
- 使用fasttext进行语言识别，专注于英语内容
- 屏蔽个人识别信息，如电子邮件地址和IP地址
- 使用Bloom过滤器进行段落和文档级别的去重
PDF特定处理:
- 使用PyMuPDF解析PDF并提取阅读顺序
- 根据列对文本块进行聚类，并从左上到右下排序
ArXiv特定处理:
- 使用TexSoup解析LaTeX源代码并将图像与文本交错
- 清理LaTeX代码，移除导入、参考文献、表格和引用标签

个人和敏感信息

尽管数据来自公共网络，但已采取措施最小化个人和敏感信息的包含
- 电子邮件地址和IP地址被屏蔽以保护隐私
- 使用NSFW图像分类器移除不当视觉内容
- 过滤掉包含不良或敏感内容子字符串的URL

偏见、风险和限制

数据偏见: 由于数据来自网络爬取，可能继承在线内容的偏见
内容风险: 尽管经过广泛过滤，仍可能存在一些冒犯性、不敏感或不当内容
图像可用性: 数据集依赖外部图像URL，可能因链接失效而影响长期可用性
PDF解析限制: 当前提取PDF阅读顺序的方法可能无法准确捕捉复杂布局文档的意图流
潜在法律和伦理问题: 尽管努力尊重robots.txt文件并移除敏感信息，仍可能包含未经明确同意的内容

建议

额外过滤: 强烈建议用户根据特定用例和伦理考虑应用额外过滤
不当用例: 数据集不适用于处理或生成个人识别信息的应用，也不适用于军事应用
法律合规性: 用户应独立验证在使用MINT-1T进行商业目的时的法律合规性
偏见意识: 研究人员和开发者应意识到数据集中的潜在偏见，并考虑其对模型训练和输出的影响

许可证

许可证: CC-BY-4.0
用途: 主要作为研究成果发布
商业用途: 用户需独立验证在商业设置中使用MINT-1T的合规性

引用

@article{awadalla2024mint1t, title={MINT-1T: Scaling Open-Source Multimodal Data by 10x: A Multimodal Dataset with One Trillion Tokens}, author={Anas Awadalla

搜集汇总

数据集介绍

构建方式

MINT-1T-HTML数据集的构建过程涉及多源数据的整合与精细处理。首先，从CommonCrawl WARC文件中提取HTML文档，从CommonCrawl WAT文件中提取PDF文档，并直接从ArXiv S3存储桶中获取ArXiv论文。随后，通过文本质量过滤、重复内容去除、图像可用性验证等步骤，确保数据的高质量与相关性。图像处理方面，采用NSFW图像检测技术剔除不适宜内容，并对图像尺寸与比例进行限制。文本处理则包括语言识别、个人信息屏蔽以及段落与文档级别的去重。PDF与ArXiv文档的解析分别使用PyMuPDF和TexSoup工具，确保文本与图像的合理交织。

使用方法

MINT-1T-HTML数据集主要用于多模态预训练研究，适用于训练能够处理交织文本与图像序列的模型，如Idefics2、XGen-MM与Chameleon等。研究者可通过HuggingFace平台访问数据集的HTML子集，并根据需求进一步筛选与处理数据。使用时应避免涉及个人隐私或军事应用等不适宜场景，并注意数据集中可能存在的偏见与风险，建议在使用前进行额外的过滤与合规性检查。

背景与挑战

背景概述

MINT-1T-HTML数据集由华盛顿大学与Salesforce Research等机构合作创建，旨在解决多模态预训练领域的数据稀缺问题。该数据集于2024年发布，包含1万亿文本标记和34亿张图像，是现有开源数据集的10倍规模。其数据来源广泛，涵盖HTML文档、PDF文件及ArXiv论文，特别注重从CommonCrawl和ArXiv等公开资源中提取高质量内容。MINT-1T的推出为多模态模型的研究提供了重要支持，推动了开放科学在多模态预训练领域的发展。

当前挑战

MINT-1T-HTML数据集的构建面临多重挑战。首先，数据来源的多样性和规模庞大使得数据清洗和过滤成为关键难题，需确保内容的相关性和质量。其次，图像数据的可用性和安全性问题突出，需通过复杂的过滤流程去除不适当内容。此外，PDF文档的复杂布局和阅读顺序提取也增加了技术难度。最后，尽管采取了隐私保护措施，数据集中仍可能存在敏感信息，这对数据的使用提出了更高的伦理和法律要求。这些挑战不仅体现在数据构建过程中，也对后续的多模态模型训练和应用提出了更高的标准。

常用场景

经典使用场景

MINT-1T数据集在自然语言处理和计算机视觉的交叉领域中展现了其独特的价值。该数据集通过整合1万亿文本标记和34亿张图像，为多模态预训练模型提供了丰富的训练资源。研究者可以利用MINT-1T进行多模态模型的训练，特别是在处理文本与图像交织的序列数据时，如社交媒体内容、科学文献等场景。

解决学术问题

MINT-1T数据集解决了多模态预训练领域中的关键问题，即缺乏大规模、高质量的开源数据集。通过提供包含HTML、PDF和ArXiv文档的多模态数据，MINT-1T填补了这一空白，使得研究者能够更有效地训练和理解多模态模型。这不仅推动了多模态学习的基础研究，还为模型在实际应用中的表现提供了坚实的基础。

实际应用

在实际应用中，MINT-1T数据集为多模态模型的开发提供了强大的支持。例如，在社交媒体分析中，模型可以利用该数据集学习如何从文本和图像的组合中提取有用信息。此外，MINT-1T还可用于科学文献的自动化处理，帮助研究者快速获取和理解复杂的多模态内容。

数据集最近研究