InfiMM-WebMath-40B

Hugging Face2024-09-20 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/Infi-MM/InfiMM-WebMath-40B

下载链接

链接失效反馈

官方服务：

资源简介：

InfiMM-WebMath-40B数据集是一个大规模的开源多模态数据集，专门设计用于数学推理任务。它结合了从网页文档中提取的文本和图像，以推进多模态大型语言模型（MLLMs）的预训练。该数据集旨在支持涉及理解和处理文本及视觉元素（如图表、图形和几何图）的复杂推理任务。数据集包括2400万份网页文档、8500万张图像URL和400亿个文本标记。这些文档来自Common Crawl数据快照（2019-2023），经过筛选以专注于高质量的数学和科学内容，涵盖英语和中文。数据集的结构确保文本和图像在其原始顺序中准确交错，允许模型按照人类的方式处理内容，遵循文本解释和伴随视觉辅助之间的逻辑流程。

创建时间：

2024-09-13

原始信息汇总

InfiMM-WebMath-40B 数据集

概述

InfiMM-WebMath-40B 是一个大规模的开源多模态数据集，专门设计用于数学推理任务。该数据集结合了文本和图像，从网络文档中提取，以推进多模态大语言模型（MLLMs）的预训练。数据集旨在支持涉及理解和处理文本及视觉元素（如图表、图形和几何图）的复杂推理任务。

数据集组成

2400万 网络文档。
8500万 图像URL。
400亿 文本标记。

这些文档来自 Common Crawl 数据快照（2019-2023），经过筛选以专注于高质量的数学和科学内容，涵盖英语和中文。

数据结构

数据集以捕捉文本和图像原始顺序的格式组织，确保两种模态之间的准确交错。结构如下：

json { "URL": "...", # 源文档的URL。 "text_list": [...], # 提取的文本段列表，如果元素是图像则为None。 "image_list": [...], # 图像URL列表，如果元素是文本段则为None。 "metadata": {...} # 包含提取过程信息的元数据（如处理细节、时间戳）。 }

文本和图像的交错

text_list 和 image_list 设计为并行数组，保持文档的顺序。这种交错结构允许模型重建原始文档的流程：

如果 text_list[i] 包含文本，则 image_list[i] 为 None，表示该位置的内容是文本。
如果 text_list[i] 为 None，则 image_list[i] 包含该位置文档中的图像URL。

这种文本和图像的交错确保了基于该数据集训练的模型能够以人类的方式处理内容，遵循文本解释和伴随视觉辅助之间的逻辑流程。

数据收集和过滤流程

InfiMM-WebMath-40B 数据集通过一个全面的多阶段过滤和提取过程创建，从 Common Crawl 存储库中的超过 1200 亿网页开始。关键步骤如下：

语言过滤：第一步涉及过滤英语和中文内容。使用 Trafilatura 从网页中提取文本，并使用 LangDetect 高效识别语言，确保仅保留相关多语言内容。
高召回率数学过滤：为了尽可能多地捕捉数学相关内容，我们采用了修改版的 Resiliparse 进行HTML解析。结合高召回率优化的 FastText 模型，这一阶段确保保留任何潜在的数学数据。
去重：使用 MinHash 进行模糊文本去重和网页URL精确匹配，以处理相邻的 Common Crawl 快照。
基于规则的过滤：这一步应用特定过滤规则以移除无关或低质量内容，如包含NSFW材料或样板“lorem ipsum”的文档，提高数据集的整体质量。
高精度数学过滤：使用高精度调优的 FastText 模型进行第二遍过滤，确保数据集中仅保留高度相关的数学内容。这一细化步骤进一步提高了数据集对数学推理任务的专注度和相关性。
图像过滤：最后，基于规则的过滤应用于图像，移除无关或多余的视觉元素（如标志、横幅），确保剩余图像与数学内容一致。

如何使用数据集

基础文本下载：数据集可作为一组带有交错文本和图像URL的网络文档下载。
图像下载：用户需要根据提供的图像URL下载图像。

许可证

InfiMM-WebMath-40B 数据集在 ODC-By 1.0 许可证下提供；用户还应遵守 CommonCrawl ToU：https://commoncrawl.org/terms-of-use/。我们不更改任何底层数据的许可证。

引用

@misc{han2024infimmwebmath40badvancingmultimodalpretraining, title={InfiMM-WebMath-40B: Advancing Multimodal Pre-Training for Enhanced Mathematical Reasoning}, author={Xiaotian Han and Yiren Jian and Xuefeng Hu and Haogeng Liu and Yiqi Wang and Qihang Fan and Yuang Ai and Huaibo Huang and Ran He and Zhenheng Yang and Quanzeng You}, year={2024}, eprint={2409.12568}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2409.12568}, }

搜集汇总

数据集介绍

构建方式

InfiMM-WebMath-40B数据集的构建过程始于从Common Crawl存储库中提取的1200亿个网页。通过多阶段过滤和提取流程，首先使用Trafilatura提取文本，并结合LangDetect进行语言过滤，确保仅保留英文和中文内容。随后，采用高召回率的FastText模型进行数学内容初步筛选，并通过MinHash进行去重处理。进一步应用基于规则的过滤方法，剔除低质量或无关内容，最后使用高精度的FastText模型进行二次筛选，确保数据集中仅包含高度相关的数学内容。图像部分则通过规则过滤，剔除无关视觉元素，确保图像与数学内容高度相关。

使用方法

使用InfiMM-WebMath-40B数据集时，用户首先需下载包含交错文本和图像URL的网页文档。随后，根据提供的图像URL下载相关图像。数据集的结构设计使得用户能够轻松处理文本与图像的协同任务。此外，用户可通过调整metadata中的math_prob和math_prob_llama3字段的阈值，进一步筛选高精度数学内容，以满足特定研究需求。数据集的使用需遵循ODC-By 1.0许可协议，并遵守Common Crawl的使用条款。

背景与挑战

背景概述

InfiMM-WebMath-40B数据集由Xiaotian Han等人于2024年发布，旨在推动多模态大语言模型（MLLMs）在数学推理任务中的预训练。该数据集结合了文本和图像，提取自2019至2023年的Common Crawl数据快照，专注于高质量的数学和科学内容，涵盖英语和中文。数据集包含24百万个网页文档、85百万个图像URL以及40亿个文本标记，支持复杂的推理任务，如理解文本与视觉元素（如图表、几何图形）的关联。该数据集的发布为多模态数学推理领域的研究提供了重要的资源支持。

当前挑战

InfiMM-WebMath-40B数据集在构建过程中面临多重挑战。首先，数学推理任务本身要求模型具备对文本和图像的深度理解能力，如何有效融合多模态信息成为核心难题。其次，数据集的构建需从海量网页中筛选出高质量的数学内容，涉及复杂的多阶段过滤流程，包括语言过滤、数学内容的高召回与高精度筛选、去重以及图像过滤等步骤，确保数据的相关性与质量。此外，数据集规模庞大，如何高效存储、分发和处理数十亿级别的文本与图像数据，也对技术基础设施提出了较高要求。这些挑战共同构成了该数据集在应用与研究中的关键瓶颈。

常用场景

经典使用场景

InfiMM-WebMath-40B数据集在数学推理任务中具有广泛的应用，尤其是在多模态大语言模型（MLLMs）的预训练中。该数据集通过结合文本和图像，支持复杂的推理任务，如理解数学公式、几何图形和科学图表。研究人员可以利用该数据集训练模型，使其能够同时处理文本和视觉信息，从而提升模型在数学问题解答中的表现。

解决学术问题

InfiMM-WebMath-40B数据集解决了多模态数学推理中的关键问题，特别是在文本与图像结合的复杂场景中。传统模型往往难以同时处理文本和视觉信息，导致在数学推理任务中表现不佳。该数据集通过提供大量高质量的数学内容，帮助模型更好地理解数学概念及其视觉表达，从而推动了多模态推理领域的研究进展。

实际应用

在实际应用中，InfiMM-WebMath-40B数据集为教育技术、自动解题系统和科学文献分析提供了重要支持。例如，基于该数据集训练的模型可以用于开发智能教育工具，帮助学生理解复杂的数学概念。此外，该数据集还可用于自动化科学文献的解析，帮助研究人员快速提取关键信息。

数据集最近研究