xavierdurawa/proof-pile-2-streaming|数学数据集|文本生成数据集

hugging_face2023-12-19 更新2024-03-04 收录

数学

文本生成

下载链接：

https://hf-mirror.com/datasets/xavierdurawa/proof-pile-2-streaming

下载链接

链接失效反馈

资源简介：

Proof-Pile-2是一个包含550亿个标记的数学和科学文档数据集，旨在训练Llemma 7B和Llemma 34B模型。它由三个子集组成：arxiv（290亿个标记），来自RedPajama的ArXiv子集；open-web-math（150亿个标记），包含互联网上高质量数学文本的OpenWebMath数据集；algebraic-stack（110亿个标记），一个新的数学代码数据集，包括数值计算、计算机代数和形式数学。每个数据集行包含文档文本和元数据。

提供机构：

xavierdurawa

原始信息汇总

数据集概述

Proof-Pile-2 是一个包含 550 亿个标记的数学和科学文档数据集。该数据集旨在训练 Llemma 7B 和 Llemma 34B 模型。它由三个子集组成：

arxiv (290 亿个标记): ArXiv 子集，来自 RedPajama
open-web-math (150 亿个标记): OpenWebMath 数据集，包含大量高质量的互联网数学文本。
algebraic-stack (110 亿个标记): 一个新的数学代码数据集，包括数值计算、计算机代数和形式数学。

数据集加载

可以使用以下代码下载数据集： python from datasets import load_dataset ds = load_dataset("EleutherAI/proof-pile-2")

仅加载特定子集，例如 arxiv

ds_arxiv = load_dataset("EleutherAI/proof-pile-2", "arxiv")

数据集结构

每个数据集行具有以下结构： python { "text": ..., # 文档文本 "meta": ..., # 元数据的 JSON 字符串，模式特定于数据源 }

数据集内容

详细文档请参考 RedPajama 和 OpenWebMath。以下表格列举了 AlgebraicStack 按编程语言的内容：

语言	AlgebraicStack 标记数
Agda	35.2 M
C	25.1 M
C++	954.1 M
Coq	281.9 M
Fortran	724.9 M
GAP	3.6 M
Haskell	9.1 M
Idris	10.9 M
Isabelle	1,089.7 M
Julia	531.0 M
Jupyter	199.1 M
Lean	285.6 M
Maple	2.0 M
Matlab	65.8 M
Python	6,098.8 M
R	71.3 M
Tex	567.7 M
总计	10,955.7 M

许可证

我们不更改任何基础数据的许可证。

版本历史

v1.1.0: 包含 OpenWebMath 的更新版本，改进了过滤，例如移除非常短的文档。
v1.0.0: 用于训练 Llemma 7B 和 Llemma 34B 的数据。

引用

对于整个 Proof-Pile-2，引用：

@misc{azerbayev2023llemma, title={Llemma: An Open Language Model For Mathematics}, author={Zhangir Azerbayev and Hailey Schoelkopf and Keiran Paster and Marco Dos Santos and Stephen McAleer and Albert Q. Jiang and Jia Deng and Stella Biderman and Sean Welleck}, year={2023}, eprint={2310.10631}, archivePrefix={arXiv}, primaryClass={cs.CL} }

对于 ArXiv 子集，引用：

@software{together2023redpajama, author = {Together Computer}, title = {RedPajama: An Open Source Recipe to Reproduce LLaMA training dataset}, month = April, year = 2023, url = {https://github.com/togethercomputer/RedPajama-Data} }

对于 OpenWebMath，引用：

@misc{paster2023openwebmath, title={OpenWebMath: An Open Dataset of High-Quality Mathematical Web Text}, author={Keiran Paster and Marco Dos Santos and Zhangir Azerbayev and Jimmy Ba}, year={2023}, eprint={2310.06786}, archivePrefix={arXiv}, primaryClass={cs.AI} }

AI搜集汇总

数据集介绍

构建方式

Proof-Pile-2数据集的构建旨在促进数学和科学文档领域的自然语言处理研究，特别是为训练Llemma系列模型。该数据集通过整合三个子集而成，分别是来自ArXiv的29B tokens文档、含有互联网高质量数学文本的OpenWebMath的15B tokens文档以及包含数学代码的新数据集Algebraic-Stack的11B tokens文档。构建过程中，采用手工制定的特定语言启发式方法对文档进行筛选，确保仅包含数学内容。

使用方法

用户可通过HuggingFace的datasets库方便地下载和使用Proof-Pile-2数据集。下载整个数据集或特定子集仅需简短的代码即可完成。数据集的每一行包含文档文本和元数据，其中元数据以JSON字符串形式存储，且其模式特定于数据源，便于用户进行进一步的数据处理和分析。

背景与挑战

背景概述

在数学与科学文献领域，Proof-Pile-2数据集作为一项重要的研究成果，由Zhangir Azerbayev等研究人员于2023年构建。该数据集包含55亿个token，旨在为Llemma系列模型提供训练基础。Proof-Pile-2由三个子集组成：ArXiv子集、OpenWebMath子集以及AlgebraicStack子集，分别涵盖学术论文、互联网上的高质量数学文本以及数学代码。该数据集的构建不仅丰富了数学语言模型的训练资源，也对数学知识工程与自然语言处理领域产生了深远影响。

当前挑战

Proof-Pile-2数据集在构建过程中面临诸多挑战。首先，如何从海量的文本中有效筛选出含有数学内容的部分，确保数据质量，是一大难题。其次，整合来自不同源的数据，如ArXiv和OpenWebMath，并保持数据的一致性和可用性，也颇具挑战性。此外，数据集在解决数学文本特有的语言理解和生成问题方面，如数学公式的解析与生成，仍需进一步的探索和研究。

常用场景

经典使用场景

在数学和科学文献研究领域，Proof-Pile-2数据集的经典使用场景在于训练如Llemma 7B和Llemma 34B等自然语言处理模型，以理解和生成复杂的数学公式和科学论述。该数据集提供了丰富的数学文本资源，使得模型能够学习到数学表述的多样性和深度。

解决学术问题

Proof-Pile-2数据集解决了学术研究中对大规模数学文本数据的迫切需求，为研究者提供了海量的数学和科学文献资源，从而推动了数学公式理解、科学文本生成以及数学知识发现等领域的学术进展。其独特的子集构成，如包含编程语言中的数学代码的AlgebraicStack，为计算机辅助证明和自动化数学推理等研究提供了重要支撑。

实际应用

在实际应用中，Proof-Pile-2数据集的应用场景广泛，包括但不限于辅助数学教育、提升搜索引擎对数学内容的索引能力、优化科学文献的自动摘要和分类系统，以及为科研工作者提供强大的数学公式检索工具。此外，该数据集亦可用于改进在线数学问答系统和智能辅导系统，以提供更加精准和高效的学术支持。

数据集最近研究

最新研究方向

在数学和科学文献领域，Proof-Pile-2数据集的构建与运用，标志着自然语言处理技术在理解及生成数学内容上的重要进展。该数据集的问世，旨在支撑Llemma系列模型的训练，进一步推动数学语言模型的智能化。近期研究集中于提升数学文本的解析能力，特别是在处理科学文档中的复杂数学表达式和逻辑推理方面。Proof-Pile-2的全面性与多样性，为相关领域的研究提供了丰富的素材，促进了数学知识工程的深入发展，对学术出版、数学教育以及智能辅助研究均产生了深远影响。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4099个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

CHCrack5K

CHCrack5K是一个用于高级裂缝检测研究的强大数据集。它将11个公开的裂缝数据集整合为一个统一的数据集，包含5,014个标记图像样本。每个数据集都经过特定的预处理，以将所有样本标准化为480×480像素的分辨率。该数据集提供了多种裂缝结构，为测试稳健的裂缝检测算法提供了更具挑战性和现实性的基准。

github 收录

高速列车走行部轴承故障数据集

数据集内容是CR400BF型动车组的轴箱轴承、齿轮箱轴承、电机轴承的故障试验数据，包括轴承的温度监测信号和振动监测信号，故障位置涵盖了轴承内圈故障、外圈故障、保持架故障、滚动体故障，故障工况涵盖了不同转速、不同静载荷、不同激振的近百种工况。数据量1.2GB。

国家基础学科公共科学数据中心收录

CWRU bearing fault dataset

CWRU数据集的故障类别被总结为总共十类数据，包括一种正常数据和九种故障数据。该数据集包含两种采样频率的数据，12k Hz和48k Hz，正常数据除外，它只有48k Hz的采样频率。对于这些数据，我们使用12k Hz采样频率的数据。

github 收录

Amazon电影评论数据集

该数据集包含从1997年8月至2012年10月期间，Amazon用户对253,059种产品的7,911,684条评论。数据集被添加了真实标签，这些标签是通过爬取/抓取Amazon.com获得的，用于分类产品。

github 收录

CACD

跨年龄名人数据集是用于跨年龄人脸识别和检索的数据集。它包含 2,000 位名人的 163,446 张图像。该数据集于 2014 年由马里兰大学计算机科学系发表，论文名为 cross-age Reference Coding for Age-invariant Face Recognition and Retrieval。

OpenDataLab 收录