REDSTONE

Name: REDSTONE
Creator: 微软研究院
Published: 2024-12-04 23:27:39
License: 暂无描述

arXiv2024-12-04 更新2024-12-06 收录

下载链接：

https://github.com/microsoft/redstone

下载链接

链接失效反馈

官方服务：

资源简介：

REDSTONE数据集由微软研究院创建，旨在为大型语言模型（LLMs）提供高质量的预训练数据。该数据集从Common Crawl中提取并处理，包含约3.17万亿个通用知识tokens和250.2亿、15.9亿、51.4亿tokens的代码、数学和问答特定领域数据。数据集的创建过程包括提取和过滤模块，通过模式识别和自然语言处理技术确保数据的高质量。REDSTONE数据集的应用领域广泛，旨在提升LLMs在通用语言理解、代码生成、数学问题解决和问答任务中的表现。

The REDSTONE dataset was created by Microsoft Research, aiming to deliver high-quality pre-training corpora for Large Language Models (LLMs). Extracted and curated from Common Crawl, the dataset encompasses approximately 3.17 trillion general knowledge tokens, alongside 25.02 billion, 1.59 billion, and 5.14 billion tokens of domain-specific data for code, mathematics, and question answering respectively. Its development pipeline integrates extraction and filtering modules, which guarantee high data quality through pattern recognition and natural language processing techniques. The REDSTONE dataset has wide-ranging application scenarios, designed to enhance the performance of LLMs in general language understanding, code generation, mathematical problem-solving, and question answering tasks.

提供机构：

微软研究院

创建时间：

2024-12-04

原始信息汇总

RedStone 数据集概述

数据集简介

RedStone 是一个创新且可扩展的管道，旨在从大量网络内容中提取和处理数据，以创建多样化和全面的预训练数据集。该管道展示了其在多个领域的预训练数据集构建能力，包括通用、代码、数学和问答。

数据集组成

数据集名称	标记数量 (B)
REDSTONE-Web	3,170.2
REDSTONE-Code	250.2
REDSTONE-Math	15.9
REDSTONE-QA	51.4

数据集使用说明

由于我们没有开放处理后数据的权限，我们提供了 RedStone 处理通用和特定领域数据的代码，以及一个过滤后高质量数据的索引。用户可以下载原始的 Common Crawl 数据，使用提供的索引找到高质量页面，并使用 RedStone 的脚本进行处理。

性能表现

通用领域数据

数据集名称	ARC-c	ARC-e	HellaSwag	OpenBookQA	PIQA	Winogrande	平均值
RedPajama	0.2270	0.4386	0.3171	0.1900	0.5968	0.5296	0.3832
FineWeb	0.1928	0.4428	0.3506	0.1740	0.6681	0.5288	0.3929
RefinedWeb	0.2125	0.4369	0.3380	0.2100	0.6491	0.5264	0.3955
DCLM	0.2159	0.4848	0.3614	0.1760	0.6615	0.5082	0.4013
FineWeb-Edu	0.2722	0.5648	0.3637	0.1940	0.6676	0.5051	0.4279
REDSTONE-Web	0.2662	0.5181	0.3722	0.2340	0.6795	0.5162	0.4310

特定领域数据

REDSTONE-Code

数据集名称	HumanEval pass@1	HumanEval pass@10	MBPP pass@1	MBPP pass@10
REDSTONE-Web	0.0125	0.0168	0.0751	0.1566
+ REDSTONE-Code	0.0555	0.1035	0.1311	0.2458

REDSTONE-Math

数据集名称	GSM8k	MATH
OpenWebMath	3.2503	3.1288
REDSTONE-Math	3.1125	3.0557

REDSTONE-QA

模型名称	MMLU	Arc Challenge	Arc Easy	OpenbookQA	Winogrande	平均值
StableLM-2-1.6B	0.3135	0.3481	0.6860	0.2780	0.6354	0.4522
+ FALN v2	0.3525	0.3601	0.6406	0.2860	0.6125	0.4503
+ Open Orca	0.3569	0.3089	0.5821	0.2660	0.5675	0.4163
+ REDSTONE-QA	0.4582	0.3643	0.6839	0.2760	0.6377	0.4840

开始使用

领域名称	链接
通用领域数据	Getting Started
特定领域数据	Getting Started

引用

如果发现此仓库有用，请考虑引用我们的工作：

@misc{2024redstone, title={RedStone: Curating General, Code, Math, and QA Data for Large Language Models}, author={Yaoyao Chang and Lei Cui and Li Dong and Shaohan Huang and Yangyu Huang and Yupan Huang and Scarlett Li and Tengchao Lv and Shuming Ma and Qinzheng Sun and Wenhui Wang and Furu Wei and Ying Xin and Mao Yang and Qiufeng Yin and Xingxing Zhang}, year={2024}, eprint={2412.03398}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2412.03398}, }

许可证

本项目的内容本身根据 MIT 许可证授权。

联系

如需帮助或在使用 RedStone 时遇到问题，请提交 GitHub 问题。

如需其他与 RedStone 相关的通信，请联系 Lei Cui 或 Furu Wei。

搜集汇总

数据集介绍

构建方式

REDSTONE数据集的构建方式独具匠心，通过精心设计的管道从Common Crawl中高效提取和过滤大规模数据。该管道包括两个核心模块：提取模块和过滤模块。提取模块利用模式识别和自然语言处理技术，从原始网页数据中捕获所需的格式化信息。过滤模块则通过关键词搜索、正则表达式和机器学习模型，筛选出最相关的内容，确保数据的高质量和多样性。这种双模块设计使得REDSTONE能够灵活适应不同领域的数据需求，显著降低了创建特定领域数据集的门槛。

特点

REDSTONE数据集的显著特点在于其广泛的应用领域和高质量的数据内容。该数据集不仅涵盖了通用领域数据，还特别针对代码、数学和问答任务构建了专门的子数据集。这些子数据集如REDSTONE-Code、REDSTONE-Math和REDSTONE-QA，分别包含250.2亿、15.9亿和51.4亿个标记，为大型语言模型提供了丰富的专业知识。此外，REDSTONE的灵活性和可扩展性使其能够轻松适应其他特定领域的需求，进一步提升了数据集的实用价值和应用广度。

使用方法

REDSTONE数据集的使用方法多样且灵活，适用于各种大型语言模型的预训练和微调任务。用户可以根据具体需求，选择通用领域数据集REDSTONE-Web或特定领域数据集如REDSTONE-Code、REDSTONE-Math和REDSTONE-QA。在预训练阶段，这些数据集可以显著提升模型的性能和泛化能力。在微调阶段，REDSTONE数据集的高质量内容能够帮助模型在代码生成、数学推理和问答任务中表现出色。此外，REDSTONE的开源性质和详细构建过程确保了数据集的可重复性和透明性，为研究者和开发者提供了宝贵的资源。

背景与挑战

背景概述

REDSTONE数据集由微软研究院的Yaoyao CHANG等人开发，旨在为大规模语言模型（LLMs）提供高质量、精心策划的数据。该数据集的创建时间可追溯至2024年，其核心研究问题在于如何从Common Crawl这一广泛且灵活的资源中提取和处理数据，以增强LLMs的性能和泛化能力。REDSTONE通过创新的、可扩展的管道工程，从Common Crawl中提取和处理数据，生成广泛且多样的预训练数据集。该数据集不仅涵盖通用语言理解，还包括代码、数学和问答任务等专业领域，显著降低了创建有价值的专业领域数据集的门槛，对LLMs的发展具有重要影响力。

当前挑战

REDSTONE数据集面临的挑战主要在于其构建过程中所遇到的复杂性和数据质量的保证。首先，从Common Crawl中提取数据需要处理海量的网页数据，这要求高效的提取和过滤技术。其次，确保数据的质量和相关性是一个重大挑战，尤其是在处理通用领域和专业领域数据时，需要精确的过滤和分类。此外，REDSTONE还需解决数据多样性和覆盖范围的问题，以确保模型在不同任务中的泛化能力。最后，随着网络数据的不断更新，如何实时更新和维护数据集也是一个持续的挑战。

常用场景

经典使用场景

REDSTONE数据集的经典使用场景主要集中在大型语言模型（LLMs）的预训练阶段。通过从Common Crawl中提取和处理高质量的数据，REDSTONE能够为LLMs提供广泛且多样化的预训练数据，涵盖通用语言理解、代码、数学和问答任务。这种数据集的灵活性使得LLMs能够在多个领域中表现出卓越的性能和泛化能力。

衍生相关工作

REDSTONE数据集的推出催生了一系列相关的经典工作，特别是在代码生成、数学推理和问答系统领域。例如，基于REDSTONE-Code数据集的研究显著提升了代码生成模型的性能，而REDSTONE-Math数据集则为数学推理任务提供了强大的支持。此外，REDSTONE-QA数据集在问答系统中的应用也取得了显著的成果，推动了相关领域的技术进步。

数据集最近研究