REDSTONE
收藏RedStone 数据集概述
数据集简介
RedStone 是一个创新且可扩展的管道,旨在从大量网络内容中提取和处理数据,以创建多样化和全面的预训练数据集。该管道展示了其在多个领域的预训练数据集构建能力,包括通用、代码、数学和问答。
数据集组成
| 数据集名称 | 标记数量 (B) |
|---|---|
| REDSTONE-Web | 3,170.2 |
| REDSTONE-Code | 250.2 |
| REDSTONE-Math | 15.9 |
| REDSTONE-QA | 51.4 |
数据集使用说明
由于我们没有开放处理后数据的权限,我们提供了 RedStone 处理通用和特定领域数据的代码,以及一个过滤后高质量数据的索引。用户可以下载原始的 Common Crawl 数据,使用提供的索引找到高质量页面,并使用 RedStone 的脚本进行处理。
性能表现
通用领域数据
| 数据集名称 | ARC-c | ARC-e | HellaSwag | OpenBookQA | PIQA | Winogrande | 平均值 |
|---|---|---|---|---|---|---|---|
| RedPajama | 0.2270 | 0.4386 | 0.3171 | 0.1900 | 0.5968 | 0.5296 | 0.3832 |
| FineWeb | 0.1928 | 0.4428 | 0.3506 | 0.1740 | 0.6681 | 0.5288 | 0.3929 |
| RefinedWeb | 0.2125 | 0.4369 | 0.3380 | 0.2100 | 0.6491 | 0.5264 | 0.3955 |
| DCLM | 0.2159 | 0.4848 | 0.3614 | 0.1760 | 0.6615 | 0.5082 | 0.4013 |
| FineWeb-Edu | 0.2722 | 0.5648 | 0.3637 | 0.1940 | 0.6676 | 0.5051 | 0.4279 |
| REDSTONE-Web | 0.2662 | 0.5181 | 0.3722 | 0.2340 | 0.6795 | 0.5162 | 0.4310 |
特定领域数据
REDSTONE-Code
| 数据集名称 | HumanEval pass@1 | HumanEval pass@10 | MBPP pass@1 | MBPP pass@10 |
|---|---|---|---|---|
| REDSTONE-Web | 0.0125 | 0.0168 | 0.0751 | 0.1566 |
| + REDSTONE-Code | 0.0555 | 0.1035 | 0.1311 | 0.2458 |
REDSTONE-Math
| 数据集名称 | GSM8k | MATH |
|---|---|---|
| OpenWebMath | 3.2503 | 3.1288 |
| REDSTONE-Math | 3.1125 | 3.0557 |
REDSTONE-QA
| 模型名称 | MMLU | Arc Challenge | Arc Easy | OpenbookQA | Winogrande | 平均值 |
|---|---|---|---|---|---|---|
| StableLM-2-1.6B | 0.3135 | 0.3481 | 0.6860 | 0.2780 | 0.6354 | 0.4522 |
| + FALN v2 | 0.3525 | 0.3601 | 0.6406 | 0.2860 | 0.6125 | 0.4503 |
| + Open Orca | 0.3569 | 0.3089 | 0.5821 | 0.2660 | 0.5675 | 0.4163 |
| + REDSTONE-QA | 0.4582 | 0.3643 | 0.6839 | 0.2760 | 0.6377 | 0.4840 |
开始使用
| 领域名称 | 链接 |
|---|---|
| 通用领域数据 | Getting Started |
| 特定领域数据 | Getting Started |
引用
如果发现此仓库有用,请考虑引用我们的工作:
@misc{2024redstone, title={RedStone: Curating General, Code, Math, and QA Data for Large Language Models}, author={Yaoyao Chang and Lei Cui and Li Dong and Shaohan Huang and Yangyu Huang and Yupan Huang and Scarlett Li and Tengchao Lv and Shuming Ma and Qinzheng Sun and Wenhui Wang and Furu Wei and Ying Xin and Mao Yang and Qiufeng Yin and Xingxing Zhang}, year={2024}, eprint={2412.03398}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2412.03398}, }
许可证
本项目的内容本身根据 MIT 许可证授权。
联系
如需帮助或在使用 RedStone 时遇到问题,请提交 GitHub 问题。

- 1RedStone: Curating General, Code, Math, and QA Data for Large Language Models微软研究院 · 2024年



