EleutherAI/proof-pile-2|机器学习数据集|人工智能数据集

hugging_face2023-10-25 更新2024-03-04 收录

机器学习

人工智能

下载链接：

https://hf-mirror.com/datasets/EleutherAI/proof-pile-2

下载链接

链接失效反馈

资源简介：

Proof-Pile-2是一个包含550亿个token的数学和科学文档数据集，用于训练Llemma 7B和Llemma 34B模型。该数据集由三个子集组成：arxiv（29B tokens）、open-web-math（15B tokens）和algebraic-stack（11B tokens）。arxiv子集来自RedPajama，open-web-math子集包含互联网上的高质量数学文本，algebraic-stack子集是一个新的数学代码数据集，包括数值计算、计算机代数和形式数学。每个数据行包含文本和元数据。数据集的内容详细列出了AlgebraicStack中各编程语言的token数量。许可证信息未改变原始数据的许可证。版本历史包括v1.1.0和v1.0.0，分别对应不同版本的OpenWebMath。引用部分提供了对整个数据集及其子集的引用格式。

提供机构：

EleutherAI

原始信息汇总

数据集概述

名称: Proof-Pile-2

大小: 55亿 token

语言: 英语 (en)

任务类别: 文本生成 (text-generation)

标签: 数学 (math)

数据集组成:

arxiv (29亿 tokens)
open-web-math (15亿 tokens)
algebraic-stack (11亿 tokens)

数据集详情

子集描述

arxiv: 来自 RedPajama 的 ArXiv 子集。
open-web-math: OpenWebMath 数据集，包含互联网上的高质量数学文本。
algebraic-stack: 包含数学代码的新数据集，涉及数值计算、计算机代数和形式数学。

数据集结构

每行结构: python { "text": ..., # 文档文本 "meta": ..., # JSON 字符串形式的元数据 }

许可证

不更改任何底层数据的许可证。

版本历史

v1.1.0: 包含更新的 OpenWebMath 版本，改进了过滤，例如移除了非常短的文档。
v1.0.0: 用于训练 Llemma 7B 和 Llemma 34B 的数据。

引用信息

整个 Proof-Pile-2:

@misc{azerbayev2023llemma, title={Llemma: An Open Language Model For Mathematics}, author={Zhangir Azerbayev and others}, year={2023}, eprint={2310.10631}, archivePrefix={arXiv}, primaryClass={cs.CL} }
ArXiv 子集:

@software{together2023redpajama, author={Together Computer}, title={RedPajama: An Open Source Recipe to Reproduce LLaMA training dataset}, month={April}, year={2023}, url={https://github.com/togethercomputer/RedPajama-Data} }
OpenWebMath:

@misc{paster2023openwebmath, title={OpenWebMath: An Open Dataset of High-Quality Mathematical Web Text}, author={Keiran Paster and others}, year={2023}, eprint={2310.06786}, archivePrefix={arXiv}, primaryClass={cs.AI} }

AI搜集汇总

数据集介绍

构建方式

Proof-Pile-2数据集的构建旨在为数学和科学文档领域提供丰富的训练资源，总计包含55亿个标记。该数据集整合了三个子集：来自RedPajama的ArXiv子集、OpenWebMath数据集以及全新的AlgebraicStack数学代码数据集。这些子集通过精心筛选和语言特定的启发式方法，确保了数学内容的高质量与相关性。

特点

该数据集的特点在于其内容的多样性和专业性。ArXiv子集提供了广泛的学术研究论文，OpenWebMath子集包含了互联网上高质量数学文本的丰富资源，而AlgebraicStack子集则专注于数学代码，涵盖了多种编程语言。整体而言，Proof-Pile-2为数学语言模型的训练提供了全面且深入的数据支持。

使用方法

用户可以通过Hugging Face的datasets库轻松加载整个Proof-Pile-2数据集或其特定子集。数据集的每一行都包含文档文本和元数据，其中元数据以JSON字符串的形式存储，且其模式特定于数据源。这种结构设计使得数据集在加载和使用过程中既灵活又方便。

背景与挑战

背景概述

Proof-Pile-2数据集，由EleutherAI团队创建，是一个涵盖数学与科学文档的55亿token的数据集。该数据集旨在训练Llemma 7B与Llemma 34B模型，汇集了来自ArXiv、OpenWebMath以及全新构建的AlgebraicStack三个子集的数据。其构建标志着数学领域语言模型训练数据集的重要进展，为数学知识的学习与应用提供了丰富的文本资源。

当前挑战

该数据集在构建过程中面临了多方面的挑战：首先，数学文本的收集与筛选需确保高质量与相关性，这对数据集的准确性提出了高要求；其次，不同来源的数据整合与格式统一工作复杂，对数据处理的鲁棒性提出了挑战；最后，如何在保证数据质量的同时，遵循各数据源原有的版权协议，也是数据集构建中的一大考验。

常用场景

经典使用场景

在数学与科学领域，Proof-Pile-2数据集的经典使用场景主要在于支撑数学语言模型的训练，如Llemma 7B与Llemma 34B模型，其通过吸收数据集中的丰富数学文本，为模型提供深度学习的基础。

衍生相关工作

基于Proof-Pile-2数据集，已经衍生出了一系列相关研究工作，如Llemma系列模型的开发，以及针对特定数学问题的高效算法研究，这些工作进一步推动了数学与计算机科学的交叉融合，促进了数学知识工程的发展。

数据集最近研究

最新研究方向

在数学与科学文献领域，Proof-Pile-2数据集的构建标志着对数学语言模型训练资源的重要拓展。该数据集涵盖了55亿个标记的数学和科学文档，旨在支持Llemma系列模型的训练，其中包括29亿个标记的ArXiv子集、15亿个标记的OpenWebMath子集以及11亿个标记的AlgebraicStack子集。近期研究聚焦于利用这一数据集进一步优化数学语言模型的性能，提升数学文本生成的准确性和流畅性，进而推动数学研究、教育和科学普及的发展。Proof-Pile-2的发布，不仅丰富了数学语言处理领域的研究资源，也为相关模型的评估与比较提供了统一的标准，对于促进数学知识传播和技术创新具有深远影响。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4099个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

中国劳动力动态调查

“中国劳动力动态调查” （China Labor-force Dynamics Survey，简称 CLDS）是“985”三期“中山大学社会科学特色数据库建设”专项内容，CLDS的目的是通过对中国城乡以村/居为追踪范围的家庭、劳动力个体开展每两年一次的动态追踪调查，系统地监测村/居社区的社会结构和家庭、劳动力个体的变化与相互影响，建立劳动力、家庭和社区三个层次上的追踪数据库，从而为进行实证导向的高质量的理论研究和政策研究提供基础数据。

中国学术调查数据资料库收录

AIS数据集

该研究使用了多个公开的AIS数据集，这些数据集经过过滤、清理和统计分析。数据集涵盖了多种类型的船舶，并提供了关于船舶位置、速度和航向的关键信息。数据集包括来自19,185艘船舶的AIS消息，总计约6.4亿条记录。

github 收录

TUT dataset

TUT数据集用于结构裂缝分割模型CrackSCF的训练和测试。

github 收录

CACD

跨年龄名人数据集是用于跨年龄人脸识别和检索的数据集。它包含 2,000 位名人的 163,446 张图像。该数据集于 2014 年由马里兰大学计算机科学系发表，论文名为 cross-age Reference Coding for Age-invariant Face Recognition and Retrieval。

OpenDataLab 收录

中国1km分辨率逐月降水量数据集（1901-2024）

该数据集为中国逐月降水量数据，空间分辨率为0.0083333°（约1km），时间为1901.1-2024.12。数据格式为NETCDF，即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集，通过Delta空间降尺度方案在中国降尺度生成的。并且，使用496个独立气象观测点数据进行验证，验证结果可信。本数据集包含的地理空间范围是全国主要陆地（包含港澳台地区），不含南海岛礁等区域。为了便于存储，数据均为int16型存于nc文件中，降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理，Matlab发布了读入与存储nc文件的函数，读取函数为ncread，切换到nc文件存储文件夹，语句表达为：ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent])，其中XXX.nc为文件名，为字符串需要’’；var是从XXX.nc中读取的变量名，为字符串需要’’；i、j、t分别为读取数据的起始行、列、时间，leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样，研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令，可查看。数据坐标系统建议使用WGS84。

国家青藏高原科学数据中心收录