five

REDSTONE

收藏
arXiv2024-12-04 更新2024-12-06 收录
下载链接:
https://github.com/microsoft/redstone
下载链接
链接失效反馈
官方服务:
资源简介:
REDSTONE数据集由微软研究院创建,旨在为大型语言模型(LLMs)提供高质量的预训练数据。该数据集从Common Crawl中提取并处理,包含约3.17万亿个通用知识tokens和250.2亿、15.9亿、51.4亿tokens的代码、数学和问答特定领域数据。数据集的创建过程包括提取和过滤模块,通过模式识别和自然语言处理技术确保数据的高质量。REDSTONE数据集的应用领域广泛,旨在提升LLMs在通用语言理解、代码生成、数学问题解决和问答任务中的表现。

The REDSTONE dataset was created by Microsoft Research, aiming to deliver high-quality pre-training corpora for Large Language Models (LLMs). Extracted and curated from Common Crawl, the dataset encompasses approximately 3.17 trillion general knowledge tokens, alongside 25.02 billion, 1.59 billion, and 5.14 billion tokens of domain-specific data for code, mathematics, and question answering respectively. Its development pipeline integrates extraction and filtering modules, which guarantee high data quality through pattern recognition and natural language processing techniques. The REDSTONE dataset has wide-ranging application scenarios, designed to enhance the performance of LLMs in general language understanding, code generation, mathematical problem-solving, and question answering tasks.
提供机构:
微软研究院
创建时间:
2024-12-04
原始信息汇总

RedStone 数据集概述

数据集简介

RedStone 是一个创新且可扩展的管道,旨在从大量网络内容中提取和处理数据,以创建多样化和全面的预训练数据集。该管道展示了其在多个领域的预训练数据集构建能力,包括通用、代码、数学和问答。

数据集组成

数据集名称 标记数量 (B)
REDSTONE-Web 3,170.2
REDSTONE-Code 250.2
REDSTONE-Math 15.9
REDSTONE-QA 51.4

数据集使用说明

由于我们没有开放处理后数据的权限,我们提供了 RedStone 处理通用和特定领域数据的代码,以及一个过滤后高质量数据的索引。用户可以下载原始的 Common Crawl 数据,使用提供的索引找到高质量页面,并使用 RedStone 的脚本进行处理。

性能表现

通用领域数据

数据集名称 ARC-c ARC-e HellaSwag OpenBookQA PIQA Winogrande 平均值
RedPajama 0.2270 0.4386 0.3171 0.1900 0.5968 0.5296 0.3832
FineWeb 0.1928 0.4428 0.3506 0.1740 0.6681 0.5288 0.3929
RefinedWeb 0.2125 0.4369 0.3380 0.2100 0.6491 0.5264 0.3955
DCLM 0.2159 0.4848 0.3614 0.1760 0.6615 0.5082 0.4013
FineWeb-Edu 0.2722 0.5648 0.3637 0.1940 0.6676 0.5051 0.4279
REDSTONE-Web 0.2662 0.5181 0.3722 0.2340 0.6795 0.5162 0.4310

特定领域数据

REDSTONE-Code

数据集名称 HumanEval pass@1 HumanEval pass@10 MBPP pass@1 MBPP pass@10
REDSTONE-Web 0.0125 0.0168 0.0751 0.1566
+ REDSTONE-Code 0.0555 0.1035 0.1311 0.2458

REDSTONE-Math

数据集名称 GSM8k MATH
OpenWebMath 3.2503 3.1288
REDSTONE-Math 3.1125 3.0557

REDSTONE-QA

模型名称 MMLU Arc Challenge Arc Easy OpenbookQA Winogrande 平均值
StableLM-2-1.6B 0.3135 0.3481 0.6860 0.2780 0.6354 0.4522
+ FALN v2 0.3525 0.3601 0.6406 0.2860 0.6125 0.4503
+ Open Orca 0.3569 0.3089 0.5821 0.2660 0.5675 0.4163
+ REDSTONE-QA 0.4582 0.3643 0.6839 0.2760 0.6377 0.4840

开始使用

领域名称 链接
通用领域数据 Getting Started
特定领域数据 Getting Started

引用

如果发现此仓库有用,请考虑引用我们的工作:

@misc{2024redstone, title={RedStone: Curating General, Code, Math, and QA Data for Large Language Models}, author={Yaoyao Chang and Lei Cui and Li Dong and Shaohan Huang and Yangyu Huang and Yupan Huang and Scarlett Li and Tengchao Lv and Shuming Ma and Qinzheng Sun and Wenhui Wang and Furu Wei and Ying Xin and Mao Yang and Qiufeng Yin and Xingxing Zhang}, year={2024}, eprint={2412.03398}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2412.03398}, }

许可证

本项目的内容本身根据 MIT 许可证授权。

联系

如需帮助或在使用 RedStone 时遇到问题,请提交 GitHub 问题。

如需其他与 RedStone 相关的通信,请联系 Lei CuiFuru Wei

搜集汇总
数据集介绍
main_image_url
构建方式
REDSTONE数据集的构建方式独具匠心,通过精心设计的管道从Common Crawl中高效提取和过滤大规模数据。该管道包括两个核心模块:提取模块和过滤模块。提取模块利用模式识别和自然语言处理技术,从原始网页数据中捕获所需的格式化信息。过滤模块则通过关键词搜索、正则表达式和机器学习模型,筛选出最相关的内容,确保数据的高质量和多样性。这种双模块设计使得REDSTONE能够灵活适应不同领域的数据需求,显著降低了创建特定领域数据集的门槛。
特点
REDSTONE数据集的显著特点在于其广泛的应用领域和高质量的数据内容。该数据集不仅涵盖了通用领域数据,还特别针对代码、数学和问答任务构建了专门的子数据集。这些子数据集如REDSTONE-Code、REDSTONE-Math和REDSTONE-QA,分别包含250.2亿、15.9亿和51.4亿个标记,为大型语言模型提供了丰富的专业知识。此外,REDSTONE的灵活性和可扩展性使其能够轻松适应其他特定领域的需求,进一步提升了数据集的实用价值和应用广度。
使用方法
REDSTONE数据集的使用方法多样且灵活,适用于各种大型语言模型的预训练和微调任务。用户可以根据具体需求,选择通用领域数据集REDSTONE-Web或特定领域数据集如REDSTONE-Code、REDSTONE-Math和REDSTONE-QA。在预训练阶段,这些数据集可以显著提升模型的性能和泛化能力。在微调阶段,REDSTONE数据集的高质量内容能够帮助模型在代码生成、数学推理和问答任务中表现出色。此外,REDSTONE的开源性质和详细构建过程确保了数据集的可重复性和透明性,为研究者和开发者提供了宝贵的资源。
背景与挑战
背景概述
REDSTONE数据集由微软研究院的Yaoyao CHANG等人开发,旨在为大规模语言模型(LLMs)提供高质量、精心策划的数据。该数据集的创建时间可追溯至2024年,其核心研究问题在于如何从Common Crawl这一广泛且灵活的资源中提取和处理数据,以增强LLMs的性能和泛化能力。REDSTONE通过创新的、可扩展的管道工程,从Common Crawl中提取和处理数据,生成广泛且多样的预训练数据集。该数据集不仅涵盖通用语言理解,还包括代码、数学和问答任务等专业领域,显著降低了创建有价值的专业领域数据集的门槛,对LLMs的发展具有重要影响力。
当前挑战
REDSTONE数据集面临的挑战主要在于其构建过程中所遇到的复杂性和数据质量的保证。首先,从Common Crawl中提取数据需要处理海量的网页数据,这要求高效的提取和过滤技术。其次,确保数据的质量和相关性是一个重大挑战,尤其是在处理通用领域和专业领域数据时,需要精确的过滤和分类。此外,REDSTONE还需解决数据多样性和覆盖范围的问题,以确保模型在不同任务中的泛化能力。最后,随着网络数据的不断更新,如何实时更新和维护数据集也是一个持续的挑战。
常用场景
经典使用场景
REDSTONE数据集的经典使用场景主要集中在大型语言模型(LLMs)的预训练阶段。通过从Common Crawl中提取和处理高质量的数据,REDSTONE能够为LLMs提供广泛且多样化的预训练数据,涵盖通用语言理解、代码、数学和问答任务。这种数据集的灵活性使得LLMs能够在多个领域中表现出卓越的性能和泛化能力。
衍生相关工作
REDSTONE数据集的推出催生了一系列相关的经典工作,特别是在代码生成、数学推理和问答系统领域。例如,基于REDSTONE-Code数据集的研究显著提升了代码生成模型的性能,而REDSTONE-Math数据集则为数学推理任务提供了强大的支持。此外,REDSTONE-QA数据集在问答系统中的应用也取得了显著的成果,推动了相关领域的技术进步。
数据集最近研究
最新研究方向
REDSTONE数据集的最新研究方向主要集中在利用Common Crawl这一广泛且灵活的资源,为大型语言模型(LLMs)的预训练提供高质量、精心策划的数据。研究不仅关注通用语言理解,还扩展到特定领域知识,如代码、数学和问答任务。通过引入REDSTONE这一创新且可扩展的管道,研究者们能够从Common Crawl中提取和处理数据,创建广泛且多样的预训练数据集。与传统数据集相比,REDSTONE利用Common Crawl的广度,为多个领域定制数据集,显著降低了创建有价值领域特定数据集的门槛。这一研究方向不仅强调了创新数据获取策略的重要性,还突显了网络规模数据在LLMs持续进化中的强大资源作用。
相关研究论文
  • 1
    RedStone: Curating General, Code, Math, and QA Data for Large Language Models微软研究院 · 2024年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作