EleutherAI/proof-pile-2
收藏数据集概述
名称: Proof-Pile-2
大小: 55亿 token
语言: 英语 (en)
任务类别: 文本生成 (text-generation)
标签: 数学 (math)
数据集组成:
arxiv(29亿 tokens)open-web-math(15亿 tokens)algebraic-stack(11亿 tokens)
数据集详情
子集描述
- arxiv: 来自 RedPajama 的 ArXiv 子集。
- open-web-math: OpenWebMath 数据集,包含互联网上的高质量数学文本。
- algebraic-stack: 包含数学代码的新数据集,涉及数值计算、计算机代数和形式数学。
数据集结构
- 每行结构: python { "text": ..., # 文档文本 "meta": ..., # JSON 字符串形式的元数据 }
许可证
- 不更改任何底层数据的许可证。
版本历史
- v1.1.0: 包含更新的 OpenWebMath 版本,改进了过滤,例如移除了非常短的文档。
- v1.0.0: 用于训练 Llemma 7B 和 Llemma 34B 的数据。
引用信息
-
整个 Proof-Pile-2:
@misc{azerbayev2023llemma, title={Llemma: An Open Language Model For Mathematics}, author={Zhangir Azerbayev and others}, year={2023}, eprint={2310.10631}, archivePrefix={arXiv}, primaryClass={cs.CL} }
-
ArXiv 子集:
@software{together2023redpajama, author={Together Computer}, title={RedPajama: An Open Source Recipe to Reproduce LLaMA training dataset}, month={April}, year={2023}, url={https://github.com/togethercomputer/RedPajama-Data} }
-
OpenWebMath:
@misc{paster2023openwebmath, title={OpenWebMath: An Open Dataset of High-Quality Mathematical Web Text}, author={Keiran Paster and others}, year={2023}, eprint={2310.06786}, archivePrefix={arXiv}, primaryClass={cs.AI} }




