five

xavierdurawa/proof-pile-2-streaming

收藏
Hugging Face2023-12-19 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/xavierdurawa/proof-pile-2-streaming
下载链接
链接失效反馈
资源简介:
--- task_categories: - text-generation language: - en tags: - math size_categories: - 10B<n<100B --- <img src="proofpile_logo.jpg" width="500"> [ArXiv](http://arxiv.org/abs/2310.10631) | [Models](https://huggingface.co/EleutherAI/llemma_34b) | [Data](https://huggingface.co/datasets/EleutherAI/proof-pile-2) | [Code](https://github.com/EleutherAI/math-lm) | [Blog](https://blog.eleuther.ai/llemma/) | [Sample Explorer](https://llemma-demo.github.io/) [Zhangir Azerbayev](https://zhangir-azerbayev.github.io/), [Hailey Schoelkopf](https://github.com/haileyschoelkopf), [Keiran Paster](https://keirp.com), [Marco Dos Santos](https://github.com/dsantosmarco), [Stephen McAleer](https://www.andrew.cmu.edu/user/smcaleer/), [Albert Q. Jiang](https://albertqjiang.github.io/), [Jia Deng](https://www.cs.princeton.edu/~jiadeng/), [Stella Biderman](https://www.stellabiderman.com/), [Sean Welleck](https://wellecks.com/) The **Proof-Pile-2** is a 55 billion token dataset of mathematical and scientific documents. This dataset was created in order to train the [Llemma 7B](https://huggingface.co/EleutherAI/llemma_7b) and [Llemma 34B](https://huggingface.co/EleutherAI/llemma_34b) models. It consists of three subsets: - `arxiv` (29B tokens): the ArXiv subset of [RedPajama](https://huggingface.co/datasets/togethercomputer/RedPajama-Data-1T) - `open-web-math` (15B tokens): The [OpenWebMath](https://huggingface.co/datasets/open-web-math/open-web-math) dataset, which contains much of the high-quality mathematical text from the internet. - `algebraic-stack` (11B tokens): A new dataset of mathematical code, including numerical computing, computer algebra, and formal mathematics. You can download the dataset as follows ```python from datasets import load_dataset ds = load_dataset("EleutherAI/proof-pile-2") # To load only a specific subset, pass it as an argument, e.g ds_arxiv = load_dataset("EleutherAI/proof-pile-2", "arxiv") ``` ### Schema Each dataset row has the following structure ```python { "text": ..., # document text "meta": ..., # JSON string of metadata, schema specific to data source } ``` ### Dataset Contents For detailed documentation of the ArXiv and web subsets, refer to [RedPajama](https://huggingface.co/datasets/togethercomputer/RedPajama-Data-1T) and [OpenWebMath](https://huggingface.co/datasets/open-web-math/open-web-math). The following table enumerates the contents of the AlgebraicStack by programming language. The AlgebraicStack is filtered to only include documents that contain mathematics, as judged by hand-crafted, language-specific heuristics. | Language | AlgebraicStack tokens | |-----------|-----------------------| | Agda | 35.2 M | | C | 25.1 M | | C++ | 954.1 M | | Coq | 281.9 M | | Fortran | 724.9 M | | GAP | 3.6 M | | Haskell | 9.1 M | | Idris | 10.9 M | | Isabelle | 1,089.7 M | | Julia | 531.0 M | | Jupyter | 199.1 M | | Lean | 285.6 M | | Maple | 2.0 M | | Matlab | 65.8 M | | Python | 6,098.8 M | | R | 71.3 M | | Tex | 567.7 M | | **Total** | **10,955.7 M** | ### License We do not alter the license of any of the underlying data. ### Version History **v1.1.0**: Contains an updated version of OpenWebMath, precisely the one available at [open-web-math/open-web-math](https://huggingface.co/datasets/open-web-math/open-web-math). This version of OpenWebMath has slightly improved filtering, for example, removal of very short documents. **v1.0.0**: The data used to train the [Llemma 7B](https://huggingface.co/EleutherAI/llemma_7b) and [Llemma 34B](https://huggingface.co/EleutherAI/llemma_34b). Uses a development version of OpenWebMath. ### Citation For the entire Proof-Pile-2, cite ``` @misc{azerbayev2023llemma, title={Llemma: An Open Language Model For Mathematics}, author={Zhangir Azerbayev and Hailey Schoelkopf and Keiran Paster and Marco Dos Santos and Stephen McAleer and Albert Q. Jiang and Jia Deng and Stella Biderman and Sean Welleck}, year={2023}, eprint={2310.10631}, archivePrefix={arXiv}, primaryClass={cs.CL} } ``` For the ArXiv subset, cite ``` @software{together2023redpajama, author = {Together Computer}, title = {RedPajama: An Open Source Recipe to Reproduce LLaMA training dataset}, month = April, year = 2023, url = {https://github.com/togethercomputer/RedPajama-Data} } ``` For OpenWebMath, cite ``` @misc{paster2023openwebmath, title={OpenWebMath: An Open Dataset of High-Quality Mathematical Web Text}, author={Keiran Paster and Marco Dos Santos and Zhangir Azerbayev and Jimmy Ba}, year={2023}, eprint={2310.06786}, archivePrefix={arXiv}, primaryClass={cs.AI} } ```
提供机构:
xavierdurawa
原始信息汇总

数据集概述

Proof-Pile-2 是一个包含 550 亿个标记的数学和科学文档数据集。该数据集旨在训练 Llemma 7BLlemma 34B 模型。它由三个子集组成:

  • arxiv (290 亿个标记): ArXiv 子集,来自 RedPajama
  • open-web-math (150 亿个标记): OpenWebMath 数据集,包含大量高质量的互联网数学文本。
  • algebraic-stack (110 亿个标记): 一个新的数学代码数据集,包括数值计算、计算机代数和形式数学。

数据集加载

可以使用以下代码下载数据集: python from datasets import load_dataset ds = load_dataset("EleutherAI/proof-pile-2")

仅加载特定子集,例如 arxiv

ds_arxiv = load_dataset("EleutherAI/proof-pile-2", "arxiv")

数据集结构

每个数据集行具有以下结构: python { "text": ..., # 文档文本 "meta": ..., # 元数据的 JSON 字符串,模式特定于数据源 }

数据集内容

详细文档请参考 RedPajamaOpenWebMath。以下表格列举了 AlgebraicStack 按编程语言的内容:

语言 AlgebraicStack 标记数
Agda 35.2 M
C 25.1 M
C++ 954.1 M
Coq 281.9 M
Fortran 724.9 M
GAP 3.6 M
Haskell 9.1 M
Idris 10.9 M
Isabelle 1,089.7 M
Julia 531.0 M
Jupyter 199.1 M
Lean 285.6 M
Maple 2.0 M
Matlab 65.8 M
Python 6,098.8 M
R 71.3 M
Tex 567.7 M
总计 10,955.7 M

许可证

我们不更改任何基础数据的许可证。

版本历史

  • v1.1.0: 包含 OpenWebMath 的更新版本,改进了过滤,例如移除非常短的文档。
  • v1.0.0: 用于训练 Llemma 7BLlemma 34B 的数据。

引用

对于整个 Proof-Pile-2,引用:

@misc{azerbayev2023llemma, title={Llemma: An Open Language Model For Mathematics}, author={Zhangir Azerbayev and Hailey Schoelkopf and Keiran Paster and Marco Dos Santos and Stephen McAleer and Albert Q. Jiang and Jia Deng and Stella Biderman and Sean Welleck}, year={2023}, eprint={2310.10631}, archivePrefix={arXiv}, primaryClass={cs.CL} }

对于 ArXiv 子集,引用:

@software{together2023redpajama, author = {Together Computer}, title = {RedPajama: An Open Source Recipe to Reproduce LLaMA training dataset}, month = April, year = 2023, url = {https://github.com/togethercomputer/RedPajama-Data} }

对于 OpenWebMath,引用:

@misc{paster2023openwebmath, title={OpenWebMath: An Open Dataset of High-Quality Mathematical Web Text}, author={Keiran Paster and Marco Dos Santos and Zhangir Azerbayev and Jimmy Ba}, year={2023}, eprint={2310.06786}, archivePrefix={arXiv}, primaryClass={cs.AI} }

AI搜集汇总
数据集介绍
main_image_url
构建方式
Proof-Pile-2数据集的构建旨在促进数学和科学文档领域的自然语言处理研究,特别是为训练Llemma系列模型。该数据集通过整合三个子集而成,分别是来自ArXiv的29B tokens文档、含有互联网高质量数学文本的OpenWebMath的15B tokens文档以及包含数学代码的新数据集Algebraic-Stack的11B tokens文档。构建过程中,采用手工制定的特定语言启发式方法对文档进行筛选,确保仅包含数学内容。
使用方法
用户可通过HuggingFace的datasets库方便地下载和使用Proof-Pile-2数据集。下载整个数据集或特定子集仅需简短的代码即可完成。数据集的每一行包含文档文本和元数据,其中元数据以JSON字符串形式存储,且其模式特定于数据源,便于用户进行进一步的数据处理和分析。
背景与挑战
背景概述
在数学与科学文献领域,Proof-Pile-2数据集作为一项重要的研究成果,由Zhangir Azerbayev等研究人员于2023年构建。该数据集包含55亿个token,旨在为Llemma系列模型提供训练基础。Proof-Pile-2由三个子集组成:ArXiv子集、OpenWebMath子集以及AlgebraicStack子集,分别涵盖学术论文、互联网上的高质量数学文本以及数学代码。该数据集的构建不仅丰富了数学语言模型的训练资源,也对数学知识工程与自然语言处理领域产生了深远影响。
当前挑战
Proof-Pile-2数据集在构建过程中面临诸多挑战。首先,如何从海量的文本中有效筛选出含有数学内容的部分,确保数据质量,是一大难题。其次,整合来自不同源的数据,如ArXiv和OpenWebMath,并保持数据的一致性和可用性,也颇具挑战性。此外,数据集在解决数学文本特有的语言理解和生成问题方面,如数学公式的解析与生成,仍需进一步的探索和研究。
常用场景
经典使用场景
在数学和科学文献研究领域,Proof-Pile-2数据集的经典使用场景在于训练如Llemma 7B和Llemma 34B等自然语言处理模型,以理解和生成复杂的数学公式和科学论述。该数据集提供了丰富的数学文本资源,使得模型能够学习到数学表述的多样性和深度。
解决学术问题
Proof-Pile-2数据集解决了学术研究中对大规模数学文本数据的迫切需求,为研究者提供了海量的数学和科学文献资源,从而推动了数学公式理解、科学文本生成以及数学知识发现等领域的学术进展。其独特的子集构成,如包含编程语言中的数学代码的AlgebraicStack,为计算机辅助证明和自动化数学推理等研究提供了重要支撑。
实际应用
在实际应用中,Proof-Pile-2数据集的应用场景广泛,包括但不限于辅助数学教育、提升搜索引擎对数学内容的索引能力、优化科学文献的自动摘要和分类系统,以及为科研工作者提供强大的数学公式检索工具。此外,该数据集亦可用于改进在线数学问答系统和智能辅导系统,以提供更加精准和高效的学术支持。
数据集最近研究
最新研究方向
在数学和科学文献领域,Proof-Pile-2数据集的构建与运用,标志着自然语言处理技术在理解及生成数学内容上的重要进展。该数据集的问世,旨在支撑Llemma系列模型的训练,进一步推动数学语言模型的智能化。近期研究集中于提升数学文本的解析能力,特别是在处理科学文档中的复杂数学表达式和逻辑推理方面。Proof-Pile-2的全面性与多样性,为相关领域的研究提供了丰富的素材,促进了数学知识工程的深入发展,对学术出版、数学教育以及智能辅助研究均产生了深远影响。
以上内容由AI搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作