hoskinson-center/proof-pile

Name: hoskinson-center/proof-pile
Creator: hoskinson-center
Published: 2023-08-19 03:24:11
License: 暂无描述

Hugging Face2023-08-19 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/hoskinson-center/proof-pile

下载链接

链接失效反馈

官方服务：

资源简介：

`proof-pile`是一个13GB的数学文本预训练数据集，包含83亿个标记（使用`gpt-neox`分词器）。该数据集由多种非正式和正式数学文本来源组成，包括ArXiv.math（10GB）、开源数学教科书（50MB）、形式数学库（500MB）、Math Overflow和Math Stack Exchange（2.5GB）、Wiki风格来源（50MB）以及MATH数据集（6MB）。数据集构建过程可复现，并提供了详细的预处理步骤和过滤条件。

`proof-pile` is a 13GB pre-training dataset of mathematical text, containing 8.3 billion tokens tokenized with the `gpt-neox` tokenizer. This dataset comprises a diverse set of informal and formal mathematical text sources, including ArXiv.math (10GB), open-source mathematical textbooks (50MB), formal mathematics libraries (500MB), Math Overflow and Math Stack Exchange (2.5GB), wiki-style resources (50MB), and the MATH dataset (6MB). The dataset's construction process is reproducible, with detailed preprocessing steps and filtering criteria provided.

提供机构：

hoskinson-center

原始信息汇总

数据集概述

数据集描述

proof-pile 是一个 13GB 的预训练数据集，包含 83 亿个使用 gpt-neox 分词器的数学文本标记。数据集由多种来源组成，包括：

ArXiv.math (10GB)
开源数学教科书 (50MB)
形式数学库 (500MB)
- Lean mathlib 和其他 Lean 仓库
- Isabelle AFP
- Coq 数学组件和其他 Coq 仓库
- HOL Light
- set.mm
- Mizar 数学库
Math Overflow 和 Math Stack Exchange (2.5GB)
Wiki 风格来源 (50MB)
- ProofWiki
- Wikipedia 数学文章
MATH 数据集 (6MB)

数据集的构建可以通过 proof-pile Github 仓库中的代码和说明进行重现。

支持的任务

该数据集旨在用于语言模型的预训练和微调。预计在 proof-pile 上训练的模型将有许多下游应用，包括非正式定量推理、形式定理证明、形式数学的语义搜索和自动形式化。

语言

proof-pile 中的所有非正式数学文本均以英语和 LaTeX 编写（arXiv 文章中的其他语言使用 languagedetect 进行过滤）。数据集中包含的形式定理证明语言有 Lean 3、Isabelle、Coq、HOL Light、Metamath 和 Mizar。

评估

数据集中的 set.mm 版本有 10% 的证明被替换为 ? 字符，以保留用于 Metamath 证明器的验证和测试集。验证和测试集的精确分割可以在以下链接找到：验证和测试。

数据集中使用的 Lean mathlib 提交版本为 6313863。后续提交的定理可用于评估 Lean 定理证明器。

该数据集仅包含 MATH 数据集的训练集。但由于包含 ProofWiki、Stacks Project、Trenchs Analysis 和 Steins Number Theory，因此无法在 NaturalProofs 数据集上进行评估。

数据预处理

本节描述了对数据集各子集进行的重要过滤和转换。

arXiv.math arXiv.math 数据集庞大、异构且包含大量噪声。我们使用以下启发式方法选择要包含在数据集中的文件：

仅保留扩展名为 .tex 的文件。
仅包含使用 utf-8/16/32 或 latin-1 文本编码的文件。
丢弃不包含部分、章节、节、小节、段落或小段落标题的文件。
删除包含关键字 gnuplot 的文件。
仅包含由 langdetect 库确定为英语的文章。
排除少于 280 个字符的文件（字符计数在删除子字符串后进行）。

此外，我们对 arXiv.math 文本应用以下转换：

删除 egin{document} 和 end{document} 之外的所有内容。
删除 Refs、egin{thebibliography} 或 egin{bibdiv} 及其之后的内容。
删除注释。
将三个以上的连续换行符替换为三个连续换行符。

Stack Exchange 我们仅包含至少有 5 个赞和答案的问题。Stack Exchange 帖子的格式如下：

QUESTION [{num_upvotes} upvotes]: {text of question}

REPLY [{num_upvotes} votes]: {text of reply}

. . .

set.mm 我们通过遵循 mm-extract 仓库中的说明，将 set.mm 转换为人类可读形式。

贡献者

作者：Zhangir Azerbayev, Edward Ayers, Bartosz Piotrowski。

我们感谢 Jeremy Avigad, Albert Jiang 和 Wenda Li 的宝贵指导，以及 Hoskinson Center for Formal Mathematics 的支持。

搜集汇总

数据集介绍

构建方式

hoskinson-center/proof-pile数据集的构建，是通过整合来自多个领域的数学文本资源而实现的。这些资源涵盖了非正式和正式的数学文献，包括arXiv数学预印本、开源数学教科书、形式化数学库、数学论坛问答以及维基风格的数学资料。构建过程中，采用了特定的过滤和转换策略，确保了数据的质量和一致性，如仅保留英文和LaTeX格式的文章，并对arXiv数学子集应用了一系列启发式方法来减少噪声。

使用方法

hoskinson-center/proof-pile数据集的使用，主要针对语言模型的预训练和微调任务。用户可以从数据集中获取丰富的数学文本，以支持下游任务，如非正式定量推理、形式化定理证明、数学语义搜索以及自动形式化。用户需要遵循数据集的使用指南，并注意相关的版权和法律条款，以确保数据使用的合法性和合规性。

背景与挑战

背景概述

在数学研究领域，构建大规模数学文本数据集对于促进形式化数学的发展与自然语言处理技术的融合具有重要意义。`proof-pile`数据集，创建于近期，由Zhangir Azerbayev、Edward Ayers和Bartosz Piotrowski等研究人员共同构建，是一个包含13GB数学文本的预训练数据集，涵盖了8.3亿个标记。该数据集整合了多种来源的正式与非正式数学文本，包括arXiv数学论文、开源数学教材、形式数学库、数学社区问答以及维基风格的数学资源等，旨在推动数学领域的语言模型预训练与微调，促进定量推理、形式定理证明、数学语义搜索以及自动化形式化等下游应用的发展。`proof-pile`数据集的构建，为相关领域的研究提供了宝贵资源，并对数学知识的形式化表示与处理产生了深远影响。

当前挑战

尽管`proof-pile`数据集为数学文本处理提供了丰富的资源，但在构建与应用过程中亦面临诸多挑战。首先，数据集的构建需要解决如何有效整合与清洗来自不同来源的异构数据的问题，保证数据的质量和一致性。其次，数据集中形式化数学的表示与处理，涉及多种定理证明语言，如Lean、Isabelle、Coq等，这对语言模型的泛化能力提出了更高的要求。此外，数据集在预处理阶段需进行大量的过滤与转换，以消除噪声并提高可用性。在模型评估方面，还需考虑到如何设计合理的评估集，以准确衡量模型在数学定理证明等任务上的表现。这些挑战均需研究人员在未来的工作中不断探索与解决。

常用场景

经典使用场景

在数学研究领域，`proof-pile`数据集的典型应用场景是作为语言模型的预训练资源，以提升模型在数学文本处理方面的能力。该数据集涵盖了从非正式的数学讨论到形式化的数学证明，为模型提供了丰富的学习材料，从而使得模型能够更好地理解和生成数学证明文本。

解决学术问题

该数据集解决了传统语言模型在处理数学文本时遇到的缺乏专业训练数据的问题。通过整合多样化的数学资源，`proof-pile`为学术研究提供了必要的数据支持，促进了形式化数学证明和语义搜索等领域的进展，对数学知识的结构化和自动化有着重要意义。

实际应用

在实际应用中，基于`proof-pile`数据集训练出的模型能够协助研究人员进行数学定理的证明，支持数学教育的个性化辅导，以及提供数学问题的智能解答服务，极大地提高了数学研究的效率和质量。

数据集最近研究