five

EleutherAI/proof-pile-2

收藏
Hugging Face2023-10-25 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/EleutherAI/proof-pile-2
下载链接
链接失效反馈
资源简介:
Proof-Pile-2是一个包含550亿个token的数学和科学文档数据集,用于训练Llemma 7B和Llemma 34B模型。该数据集由三个子集组成:arxiv(29B tokens)、open-web-math(15B tokens)和algebraic-stack(11B tokens)。arxiv子集来自RedPajama,open-web-math子集包含互联网上的高质量数学文本,algebraic-stack子集是一个新的数学代码数据集,包括数值计算、计算机代数和形式数学。每个数据行包含文本和元数据。数据集的内容详细列出了AlgebraicStack中各编程语言的token数量。许可证信息未改变原始数据的许可证。版本历史包括v1.1.0和v1.0.0,分别对应不同版本的OpenWebMath。引用部分提供了对整个数据集及其子集的引用格式。

Proof-Pile-2 is a mathematical and scientific document dataset containing 55 billion tokens, developed for training the Llemma 7B and Llemma 34B models. This dataset comprises three subsets: arxiv (29B tokens), open-web-math (15B tokens), and algebraic-stack (11B tokens). The arxiv subset is sourced from RedPajama. The open-web-math subset consists of high-quality mathematical texts from the internet. The algebraic-stack subset is a novel mathematical code dataset covering numerical computation, computer algebra, and formal mathematics. Each data entry includes text and metadata. The dataset details the token counts of various programming languages within AlgebraicStack. The license information retains the original licenses of the source data. The version history includes v1.1.0 and v1.0.0, which correspond to different versions of OpenWebMath. The citation section provides citation formats for the entire dataset and its subsets.
提供机构:
EleutherAI
原始信息汇总

数据集概述

名称: Proof-Pile-2

大小: 55亿 token

语言: 英语 (en)

任务类别: 文本生成 (text-generation)

标签: 数学 (math)

数据集组成:

  • arxiv (29亿 tokens)
  • open-web-math (15亿 tokens)
  • algebraic-stack (11亿 tokens)

数据集详情

子集描述

  • arxiv: 来自 RedPajama 的 ArXiv 子集。
  • open-web-math: OpenWebMath 数据集,包含互联网上的高质量数学文本。
  • algebraic-stack: 包含数学代码的新数据集,涉及数值计算、计算机代数和形式数学。

数据集结构

  • 每行结构: python { "text": ..., # 文档文本 "meta": ..., # JSON 字符串形式的元数据 }

许可证

  • 不更改任何底层数据的许可证。

版本历史

  • v1.1.0: 包含更新的 OpenWebMath 版本,改进了过滤,例如移除了非常短的文档。
  • v1.0.0: 用于训练 Llemma 7B 和 Llemma 34B 的数据。

引用信息

  • 整个 Proof-Pile-2:

    @misc{azerbayev2023llemma, title={Llemma: An Open Language Model For Mathematics}, author={Zhangir Azerbayev and others}, year={2023}, eprint={2310.10631}, archivePrefix={arXiv}, primaryClass={cs.CL} }

  • ArXiv 子集:

    @software{together2023redpajama, author={Together Computer}, title={RedPajama: An Open Source Recipe to Reproduce LLaMA training dataset}, month={April}, year={2023}, url={https://github.com/togethercomputer/RedPajama-Data} }

  • OpenWebMath:

    @misc{paster2023openwebmath, title={OpenWebMath: An Open Dataset of High-Quality Mathematical Web Text}, author={Keiran Paster and others}, year={2023}, eprint={2310.06786}, archivePrefix={arXiv}, primaryClass={cs.AI} }

AI搜集汇总
数据集介绍
main_image_url
构建方式
Proof-Pile-2数据集的构建旨在为数学和科学文档领域提供丰富的训练资源,总计包含55亿个标记。该数据集整合了三个子集:来自RedPajama的ArXiv子集、OpenWebMath数据集以及全新的AlgebraicStack数学代码数据集。这些子集通过精心筛选和语言特定的启发式方法,确保了数学内容的高质量与相关性。
特点
该数据集的特点在于其内容的多样性和专业性。ArXiv子集提供了广泛的学术研究论文,OpenWebMath子集包含了互联网上高质量数学文本的丰富资源,而AlgebraicStack子集则专注于数学代码,涵盖了多种编程语言。整体而言,Proof-Pile-2为数学语言模型的训练提供了全面且深入的数据支持。
使用方法
用户可以通过Hugging Face的datasets库轻松加载整个Proof-Pile-2数据集或其特定子集。数据集的每一行都包含文档文本和元数据,其中元数据以JSON字符串的形式存储,且其模式特定于数据源。这种结构设计使得数据集在加载和使用过程中既灵活又方便。
背景与挑战
背景概述
Proof-Pile-2数据集,由EleutherAI团队创建,是一个涵盖数学与科学文档的55亿token的数据集。该数据集旨在训练Llemma 7B与Llemma 34B模型,汇集了来自ArXiv、OpenWebMath以及全新构建的AlgebraicStack三个子集的数据。其构建标志着数学领域语言模型训练数据集的重要进展,为数学知识的学习与应用提供了丰富的文本资源。
当前挑战
该数据集在构建过程中面临了多方面的挑战:首先,数学文本的收集与筛选需确保高质量与相关性,这对数据集的准确性提出了高要求;其次,不同来源的数据整合与格式统一工作复杂,对数据处理的鲁棒性提出了挑战;最后,如何在保证数据质量的同时,遵循各数据源原有的版权协议,也是数据集构建中的一大考验。
常用场景
经典使用场景
在数学与科学领域,Proof-Pile-2数据集的经典使用场景主要在于支撑数学语言模型的训练,如Llemma 7B与Llemma 34B模型,其通过吸收数据集中的丰富数学文本,为模型提供深度学习的基础。
衍生相关工作
基于Proof-Pile-2数据集,已经衍生出了一系列相关研究工作,如Llemma系列模型的开发,以及针对特定数学问题的高效算法研究,这些工作进一步推动了数学与计算机科学的交叉融合,促进了数学知识工程的发展。
数据集最近研究
最新研究方向
在数学与科学文献领域,Proof-Pile-2数据集的构建标志着对数学语言模型训练资源的重要拓展。该数据集涵盖了55亿个标记的数学和科学文档,旨在支持Llemma系列模型的训练,其中包括29亿个标记的ArXiv子集、15亿个标记的OpenWebMath子集以及11亿个标记的AlgebraicStack子集。近期研究聚焦于利用这一数据集进一步优化数学语言模型的性能,提升数学文本生成的准确性和流畅性,进而推动数学研究、教育和科学普及的发展。Proof-Pile-2的发布,不仅丰富了数学语言处理领域的研究资源,也为相关模型的评估与比较提供了统一的标准,对于促进数学知识传播和技术创新具有深远影响。
以上内容由AI搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作