REDSTONE

github2024-12-05 更新2024-12-06 收录

下载链接：

https://github.com/microsoft/RedStone

下载链接

链接失效反馈

官方服务：

资源简介：

REDSTONE是一个创新且可扩展的管道，旨在从大量网络内容中提取和处理数据，以创建多样化和全面的预训练数据集。它展示了在多个领域（包括通用、代码、数学和问答）构建预训练数据集的能力。REDSTONE的灵活性使其能够轻松适应各种专业领域。

REDSTONE is an innovative and scalable pipeline designed to extract and process data from large-scale web content to create diverse and comprehensive pre-training datasets. It demonstrates the capability to construct pre-training datasets across multiple domains, including general, code, mathematics, and question answering (QA). The flexibility of REDSTONE enables it to easily adapt to various specialized domains.

创建时间：

2024-12-04

原始信息汇总

RedStone 数据集概述

数据集简介

RedStone 是一个创新且可扩展的管道，旨在从大量网络内容中提取和处理数据，以创建多样化和全面的预训练数据集。该管道展示了其在多个领域的预训练数据集构建能力，包括通用、代码、数学和问答。

数据集组成

数据集名称	标记数量 (B)
REDSTONE-Web	3,170.2
REDSTONE-Code	250.2
REDSTONE-Math	15.9
REDSTONE-QA	51.4

数据集使用说明

由于没有开放处理后数据的权限，RedStone 提供了处理通用和特定领域数据的代码，以及一个过滤后的高质量数据索引。用户可以下载原始的 Common Crawl 数据，使用提供的索引找到高质量页面，并使用 RedStone 的脚本进行处理。

数据集性能

通用领域数据

数据集名称	ARC-c	ARC-e	HellaSwag	OpenBookQA	PIQA	Winogrande	平均值
RedPajama	0.2270	0.4386	0.3171	0.1900	0.5968	0.5296	0.3832
FineWeb	0.1928	0.4428	0.3506	0.1740	0.6681	0.5288	0.3929
RefinedWeb	0.2125	0.4369	0.3380	0.2100	0.6491	0.5264	0.3955
DCLM	0.2159	0.4848	0.3614	0.1760	0.6615	0.5082	0.4013
FineWeb-Edu	0.2722	0.5648	0.3637	0.1940	0.6676	0.5051	0.4279
REDSTONE-Web	0.2662	0.5181	0.3722	0.2340	0.6795	0.5162	0.4310

特定领域数据

REDSTONE-Code

数据集名称	HumanEval pass@1	HumanEval pass@10	MBPP pass@1	MBPP pass@10
REDSTONE-Web	0.0125	0.0168	0.0751	0.1566
+ REDSTONE-Code	0.0555	0.1035	0.1311	0.2458

REDSTONE-Math

数据集名称	GSM8k	MATH
OpenWebMath	3.2503	3.1288
REDSTONE-Math	3.1125	3.0557

REDSTONE-QA

模型名称	MMLU	Arc Challenge	Arc Easy	OpenbookQA	Winogrande	平均值
StableLM-2-1.6B	0.3135	0.3481	0.6860	0.2780	0.6354	0.4522
+ FALN v2	0.3525	0.3601	0.6406	0.2860	0.6125	0.4503
+ Open Orca	0.3569	0.3089	0.5821	0.2660	0.5675	0.4163
+ REDSTONE-QA	0.4582	0.3643	0.6839	0.2760	0.6377	0.4840

数据集获取

领域	链接
通用领域数据	Getting Started
特定领域数据	Getting Started

引用

如果发现此仓库有用，请考虑引用我们的工作：

@misc{2024redstone, title={RedStone: Curating General, Code, Math, and QA Data for Large Language Models}, author={Yaoyao Chang and Lei Cui and Li Dong and Shaohan Huang and Yangyu Huang and Yupan Huang and Scarlett Li and Tengchao Lv and Shuming Ma and Qinzheng Sun and Wenhui Wang and Furu Wei and Ying Xin and Mao Yang and Qiufeng Yin and Xingxing Zhang}, year={2024}, eprint={2412.03398}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2412.03398}, }

许可证

本项目的内容本身根据 MIT 许可证授权。

搜集汇总

数据集介绍

构建方式

REDSTONE数据集的构建基于一个创新且可扩展的管道，该管道从大量网络内容中提取和处理数据，以创建多样化和全面的预训练数据集。具体而言，REDSTONE通过三个模块——收集、过滤和提取，从Common Crawl中大规模地提取特定知识。该数据集展示了其在多个领域（包括通用、代码、数学和问答）构建预训练数据集的能力，并展示了其灵活性，能够轻松适应各种专业领域。

特点

REDSTONE数据集的一个显著特点是其多样性和全面性，涵盖了通用、代码、数学和问答等多个领域。此外，该数据集的构建方法允许用户根据需要扩展到其他特定领域。尽管数据集的某些部分由于版权问题无法开源，但提供了处理这些数据的代码和索引，使用户能够自行处理和构建数据集。

使用方法

使用REDSTONE数据集时，用户可以下载Common Crawl的原始数据，并使用提供的索引和处理脚本来筛选和处理高质量的页面。此外，用户还可以利用REDSTONE的代码来扩展到其他领域，如代码、数学和问答。为了确保数据集的合法使用，用户需自行验证数据的版权和使用许可。

背景与挑战

背景概述

REDSTONE数据集是由微软研究院开发的一个创新且可扩展的管道，旨在从大量网络内容中提取和处理数据，以创建多样化和全面的预训练数据集。该数据集涵盖了多个领域，包括通用数据、代码、数学和问答，展示了其在不同专业领域的灵活适应性。REDSTONE的构建旨在为大规模语言模型的训练提供高质量的数据支持，其核心研究问题是如何高效地从海量网络数据中筛选和提取有价值的信息。该数据集的开发不仅提升了模型在数学、代码和问答任务中的表现，还为相关领域的研究提供了新的方法和工具。

当前挑战

REDSTONE数据集在构建过程中面临多项挑战。首先，从海量网络数据中筛选高质量内容需要复杂的过滤和提取技术，以确保数据的准确性和逻辑一致性。其次，由于数据集的构建依赖于Common Crawl，用户在使用时需自行处理版权和法律问题。此外，尽管REDSTONE在多个领域展示了其有效性，但其源代码目前仅适用于特定领域和英语材料，扩展到其他领域和语言需要额外的调整和努力。最后，数据集中可能存在未被过滤的有害内容和错误数据，这可能影响下游任务的准确性。

常用场景

经典使用场景

REDSTONE数据集在大型语言模型的预训练中展现了其卓越的应用价值。其经典使用场景包括构建多领域的预训练数据集，涵盖通用文本、代码、数学和问答等多个领域。通过REDSTONE，研究者能够高效地从海量网络内容中提取高质量数据，从而显著提升模型在各领域的性能。

解决学术问题

REDSTONE数据集解决了大规模数据预处理中的关键学术问题，如数据多样性不足、质量参差不齐等。其通过创新的提取和处理流程，确保了数据的广泛覆盖和高质量，为学术界提供了强有力的工具，推动了语言模型在多领域应用中的研究进展。

衍生相关工作

REDSTONE数据集的发布催生了多项相关研究工作，特别是在数据处理和模型优化领域。许多研究者基于REDSTONE的方法论，开发了新的数据处理工具和模型训练策略，进一步推动了语言模型在多领域应用中的性能提升和创新。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集