xavierdurawa/proof-pile-2-streaming|数学数据集|文本生成数据集
收藏数据集概述
Proof-Pile-2 是一个包含 550 亿个标记的数学和科学文档数据集。该数据集旨在训练 Llemma 7B 和 Llemma 34B 模型。它由三个子集组成:
arxiv
(290 亿个标记): ArXiv 子集,来自 RedPajamaopen-web-math
(150 亿个标记): OpenWebMath 数据集,包含大量高质量的互联网数学文本。algebraic-stack
(110 亿个标记): 一个新的数学代码数据集,包括数值计算、计算机代数和形式数学。
数据集加载
可以使用以下代码下载数据集: python from datasets import load_dataset ds = load_dataset("EleutherAI/proof-pile-2")
仅加载特定子集,例如 arxiv
ds_arxiv = load_dataset("EleutherAI/proof-pile-2", "arxiv")
数据集结构
每个数据集行具有以下结构: python { "text": ..., # 文档文本 "meta": ..., # 元数据的 JSON 字符串,模式特定于数据源 }
数据集内容
详细文档请参考 RedPajama 和 OpenWebMath。以下表格列举了 AlgebraicStack 按编程语言的内容:
语言 | AlgebraicStack 标记数 |
---|---|
Agda | 35.2 M |
C | 25.1 M |
C++ | 954.1 M |
Coq | 281.9 M |
Fortran | 724.9 M |
GAP | 3.6 M |
Haskell | 9.1 M |
Idris | 10.9 M |
Isabelle | 1,089.7 M |
Julia | 531.0 M |
Jupyter | 199.1 M |
Lean | 285.6 M |
Maple | 2.0 M |
Matlab | 65.8 M |
Python | 6,098.8 M |
R | 71.3 M |
Tex | 567.7 M |
总计 | 10,955.7 M |
许可证
我们不更改任何基础数据的许可证。
版本历史
- v1.1.0: 包含 OpenWebMath 的更新版本,改进了过滤,例如移除非常短的文档。
- v1.0.0: 用于训练 Llemma 7B 和 Llemma 34B 的数据。
引用
对于整个 Proof-Pile-2,引用:
@misc{azerbayev2023llemma, title={Llemma: An Open Language Model For Mathematics}, author={Zhangir Azerbayev and Hailey Schoelkopf and Keiran Paster and Marco Dos Santos and Stephen McAleer and Albert Q. Jiang and Jia Deng and Stella Biderman and Sean Welleck}, year={2023}, eprint={2310.10631}, archivePrefix={arXiv}, primaryClass={cs.CL} }
对于 ArXiv 子集,引用:
@software{together2023redpajama, author = {Together Computer}, title = {RedPajama: An Open Source Recipe to Reproduce LLaMA training dataset}, month = April, year = 2023, url = {https://github.com/togethercomputer/RedPajama-Data} }
对于 OpenWebMath,引用:
@misc{paster2023openwebmath, title={OpenWebMath: An Open Dataset of High-Quality Mathematical Web Text}, author={Keiran Paster and Marco Dos Santos and Zhangir Azerbayev and Jimmy Ba}, year={2023}, eprint={2310.06786}, archivePrefix={arXiv}, primaryClass={cs.AI} }

CHCrack5K
CHCrack5K是一个用于高级裂缝检测研究的强大数据集。它将11个公开的裂缝数据集整合为一个统一的数据集,包含5,014个标记图像样本。每个数据集都经过特定的预处理,以将所有样本标准化为480×480像素的分辨率。该数据集提供了多种裂缝结构,为测试稳健的裂缝检测算法提供了更具挑战性和现实性的基准。
github 收录
高速列车走行部轴承故障数据集
数据集内容是CR400BF型动车组的轴箱轴承、齿轮箱轴承、电机轴承的故障试验数据,包括轴承的温度监测信号和振动监测信号,故障位置涵盖了轴承内圈故障、外圈故障、保持架故障、滚动体故障,故障工况涵盖了不同转速、不同静载荷、不同激振的近百种工况。数据量1.2GB。
国家基础学科公共科学数据中心 收录
CWRU bearing fault dataset
CWRU数据集的故障类别被总结为总共十类数据,包括一种正常数据和九种故障数据。该数据集包含两种采样频率的数据,12k Hz和48k Hz,正常数据除外,它只有48k Hz的采样频率。对于这些数据,我们使用12k Hz采样频率的数据。
github 收录
Amazon电影评论数据集
该数据集包含从1997年8月至2012年10月期间,Amazon用户对253,059种产品的7,911,684条评论。数据集被添加了真实标签,这些标签是通过爬取/抓取Amazon.com获得的,用于分类产品。
github 收录
CACD
跨年龄名人数据集是用于跨年龄人脸识别和检索的数据集。它包含 2,000 位名人的 163,446 张图像。该数据集于 2014 年由马里兰大学计算机科学系发表,论文名为 cross-age Reference Coding for Age-invariant Face Recognition and Retrieval。
OpenDataLab 收录