sippycoder/RedPajama-Data-1T-no-cc-c4

Name: sippycoder/RedPajama-Data-1T-no-cc-c4
Creator: sippycoder
Published: 2023-06-18 18:13:39
License: 暂无描述

Hugging Face2023-06-18 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/sippycoder/RedPajama-Data-1T-no-cc-c4

下载链接

链接失效反馈

官方服务：

资源简介：

Red Pajama 1T数据集是一个开源的文本生成数据集，源自`togethercomputer/RedPajama-Data-1T`，并移除了CommonCrawl和C4部分。该数据集包含2084个jsonl文件，总共有1570亿个token，主要用于文本生成任务。数据集主要包含英文文本，但Wikipedia部分包含多种语言。数据集的创建过程遵循了LLaMa论文的方法，尽可能复现其数据集的构建过程。数据集的各个子集（如CommonCrawl、C4、GitHub、Wikipedia等）都有详细的预处理步骤和来源描述。

The Red Pajama 1T Dataset is an open-source text generation dataset derived from the `togethercomputer/RedPajama-Data-1T` repository, with the CommonCrawl and C4 subsets removed. This dataset consists of 2084 JSONL files, totaling 157 billion tokens, and is primarily used for text generation tasks. The dataset mainly contains English text, while the Wikipedia subset includes multiple languages. Its creation process follows the methodology outlined in the LLaMa paper, aiming to replicate the dataset construction pipeline as closely as possible. Each subset of the dataset, such as CommonCrawl, C4, GitHub, Wikipedia and others, is accompanied by detailed preprocessing steps and source attribution descriptions.

提供机构：

sippycoder

原始信息汇总

数据集概述

基本信息

任务类别：文本生成
语言：英语
数据集名称：Red Pajama 1T (no CC & C4)

数据集组成

文件数量：2084个jsonl文件
数据结构： json { "text": ..., "meta": {"url": "...", "timestamp": "...", "source": "...", "language": "...", ...}, "red_pajama_subset": "common_crawl" | "c4" | "github" | "books" | "arxiv" | "wikipedia" | "stackexchange" }

数据集来源

Commoncrawl：下载自Commoncrawl，经过去重和质量过滤。
C4：下载自Huggingface，格式转换。
GitHub：下载自Google BigQuery，去重和质量过滤，仅保留特定许可证项目。
Wikipedia：下载自Huggingface，基于2023-03-20的Wikipedia dump，预处理去除了格式化内容。
Gutenberg and Books3：下载自Huggingface，使用simhash去重。
ArXiv：下载自Amazon S3，仅保留LaTeX源文件，去除预处理内容。
Stackexchange：下载自Internet Archive，仅保留28个最大站点内容，去除HTML标签，组织成问答对。

数据集统计

总令牌数：1570亿
各部分令牌数：
- GitHub: 590亿
- Books: 260亿
- ArXiv: 280亿
- Wikipedia: 240亿
- StackExchange: 200亿

下载与引用

下载方式：可通过HuggingFace或直接下载。
引用信息：

@software{together2023redpajama, author = {Together Computer}, title = {RedPajama: An Open Source Recipe to Reproduce LLaMA training dataset}, month = April, year = 2023, url = {https://github.com/togethercomputer/RedPajama-Data} }

许可证

数据集使用需遵循各子集的许可证规定。

搜集汇总

数据集介绍

构建方式

在构建大规模文本数据集的过程中，RedPajama-Data-1T-no-cc-c4采用了精细化的数据源整合策略，旨在复现LLaMa数据集的构建方法。该数据集从原始RedPajama数据集中移除了CommonCrawl和C4部分，专注于GitHub、书籍、ArXiv、Wikipedia和StackExchange等高质量来源。每个数据源均经过特定预处理：GitHub代码通过文件级去重和许可证过滤；书籍数据使用simhash技术去除近重复项；ArXiv保留LaTeX源文件并移除冗余元素；StackExchange则筛选大型站点并清理HTML标签。这种构建方式确保了数据的多样性与纯净度，为语言模型训练提供了可靠基础。

特点

作为面向文本生成领域的数据集，RedPajama-Data-1T-no-cc-c4展现出鲜明的结构化特征。数据集包含2084个JSONL文件，每个样本均统一封装文本内容、元数据及子集标识，其中元数据涵盖来源链接、时间戳和语言信息。数据规模达到1570亿标记，覆盖学术文献、技术文档、百科全书及社区问答等多种文本类型，主体为英语但包含多语言维基百科内容。这种设计不仅支持灵活的数据加载与筛选，还通过严格的去重和过滤机制提升了文本质量，为大规模语言模型训练提供了层次丰富的语料库。

使用方法

在自然语言处理研究中，该数据集可通过HuggingFace库便捷加载，用户只需调用load_dataset函数并指定相应路径即可获取结构化数据。对于需要本地处理的场景，官方提供了基于wget的批量下载脚本，支持从分布式存储中完整获取数据文件。数据集按来源划分为独立子集，研究者可根据任务需求选择特定领域文本进行训练或评估。此外，数据文件附带的SHA256校验机制保障了传输完整性，而详细的许可证说明则为合规使用提供了明确指引，使得该数据集能够无缝集成到现代机器学习工作流中。

背景与挑战

背景概述

在大型语言模型蓬勃发展的时代背景下，高质量、大规模的训练数据成为推动技术突破的关键要素。RedPajama数据集由Together Computer于2023年4月发布，旨在构建一个完全开源的、可复现的LLaMA训练数据集。该数据集的核心研究问题在于，通过精确遵循LLaMA论文的数据配方，整合来自CommonCrawl、C4、GitHub、维基百科、书籍、arXiv及StackExchange等多个异构来源的文本，以创建一个总计约1万亿令牌的纯净语料库，从而为开放科学社区提供透明、可审计的基础模型训练资源，对推动自然语言处理领域的开放研究与创新具有深远影响力。

当前挑战

RedPajama数据集致力于解决大规模语言模型预训练中高质量数据获取与构建的根本性挑战。其首要挑战在于数据源的异构性与质量把控，例如需从CommonCrawl中过滤低质量段落，对GitHub代码进行许可证合规筛选，以及从ArXiv中剥离LaTeX源码的非内容部分。构建过程中的挑战则更为具体，涉及跨多个数据源的复杂预处理流程，包括段落级去重、近重复检测、格式清理与多语言内容整合，同时还需确保数据处理管道的可复现性与最终数据集的完整性验证，这些步骤均对计算资源与工程实现提出了极高要求。

常用场景

经典使用场景

在自然语言处理领域，大规模预训练语料库的构建是推动模型性能突破的关键基石。RedPajama-Data-1T-no-cc-c4数据集作为LLaMa训练数据的开源复现版本，其最经典的使用场景在于为大型语言模型的预训练提供高质量、多样化的文本资源。该数据集剔除了原始版本中的CommonCrawl和C4子集，专注于GitHub代码、学术论文、百科全书、书籍及技术问答等经过严格筛选的文本，从而为模型学习复杂语言结构、专业知识和代码逻辑提供了纯净而丰富的养分。

衍生相关工作

围绕RedPajama数据集，研究社区已衍生出一系列重要的经典工作。其中最显著的成果是各类基于其训练的开源语言模型，这些模型在架构创新、高效训练技术探索等方面取得了进展。此外，该数据集也催生了对数据清洗、去重、质量评估方法的深入研究，以及针对多源异构数据融合策略的学术讨论。这些工作共同构成了当前开放大模型生态的重要组成部分，持续推动着预训练数据工程领域方法论的精进。

数据集最近研究