RedPajama-V1, RedPajama-V2

Name: RedPajama-V1, RedPajama-V2
Creator: Together AI, 斯坦福大学, 芝加哥大学, EleutherAI, Ontocord.ai, 普林斯顿大学, ETH Zurich, Mila, 蒙特利尔大学, 俄亥俄州立大学, 加州理工学院
Published: 2024-11-19 17:35:28
License: 暂无描述

arXiv2024-11-19 更新2024-11-22 收录

下载链接：

https://github.com/togethercomputer/RedPajama-Data

下载链接

链接失效反馈

官方服务：

资源简介：

RedPajama数据集由Together AI等多家机构联合创建，旨在为大规模语言模型（LLMs）的训练提供高质量、多样化的数据资源。数据集包含超过100万亿个Tokens，涵盖多个领域和语言，主要来源于网络爬取的原始文本数据。创建过程中，数据集经过详细的清洗和质量信号标记，以支持数据过滤和模型训练。RedPajama数据集的应用领域广泛，旨在推动透明和高性能语言模型的发展，解决当前语言模型训练数据集缺乏透明度和高质量数据的问题。

Co-created by Together AI and multiple other institutions, the RedPajama dataset is designed to provide high-quality, diverse data resources for the training of large language models (LLMs). Containing over 100 trillion tokens, the dataset covers multiple domains and languages, and is primarily sourced from raw text data crawled from the Internet. During its creation, the dataset underwent thorough cleaning and quality signal annotation to support data filtering and model training. The RedPajama dataset has a wide range of application scenarios, aiming to promote the development of transparent and high-performance language models and address the current issues that training datasets for language models lack transparency and high-quality data.

提供机构：

Together AI, 斯坦福大学, 芝加哥大学, EleutherAI, Ontocord.ai, 普林斯顿大学, ETH Zurich, Mila, 蒙特利尔大学, 俄亥俄州立大学, 加州理工学院

创建时间：

2024-11-19

原始信息汇总

RedPajama-Data-v2: 一个用于训练大型语言模型的开放数据集

数据集概述

名称: RedPajama-V2
类型: 开放数据集
用途: 训练大型语言模型
文档数量: 超过1000亿
来源: 84个CommonCrawl快照
处理流程: 使用CCNet管道处理
语言: 英语、德语、法语、意大利语、西班牙语

数据集统计

注释和去重后的`head_middle`部分文档和标记数量

语言	文档数量	估计标记数量（去重后）
英语	145亿	20.5万亿
德语	19亿	3万亿
法语	16亿	2.7万亿
西班牙语	18亿	2.8万亿
意大利语	9亿	1.5万亿
总计	208亿	30.4万亿

数据集处理步骤

准备工件: 包括构建质量分类器、训练n-gram生成模型、获取不良词汇列表和黑名单URL。
计算质量信号: 包括计算minhash签名以进行模糊去重。
去重: 包括基于Bloomfilter的精确去重和基于局部敏感哈希的模糊去重。

质量信号

质量注释

注释标签	描述	类别	参考文献
ccnet_bucket	困惑度分数的head、middle或tail桶	CCNet	CCNet
ccnet_language_score	语言识别模型的分数	CCNet	CCNet
ccnet_length	字符数量	CCNet	CCNet
ccnet_nlines	行数	CCNet	CCNet
ccnet_original_length	文档去重前的字符数量	CCNet	CCNet
ccnet_original_nlines	文档去重前的行数	CCNet	CCNet
ccnet_perplexity	在维基百科上训练的语言模型的困惑度	CCNet	CCNet
rps_doc_books_importance	基于Books p训练的{1,2}-wordgram模型与源域q的比率的对数	ML Heuristics	Importance Resampling (Xie et al.)
rps_doc_openwebtext_importance	基于OpenWebText p训练的{1,2}-wordgram模型与源域q的比率的对数	ML Heuristics	Importance Resampling (Xie et al.)
rps_doc_wikipedia_importance	基于维基百科文章p训练的{1,2}-wordgram模型与源域q的比率的对数	ML Heuristics	Importance Resampling (Xie et al.)
rps_doc_ml_wikiref_score	文档为维基百科参考的Fasttext分类器预测	ML Heuristics	LLaMA, RedPajama-1T
rps_doc_ml_palm_score	文档为维基百科文章、OpenWebText样本或RedPajama-V1书籍的Fasttext分类器预测	ML Heuristics	PALM, GLaM
rps_doc_ml_wikipedia_score	文档为维基百科文章的Fasttext分类器预测	ML Heuristics	-
rps_doc_curly_bracket	原始文本中{或}的出现次数与字符数量的比率	Natural Language	C4
rps_doc_frac_all_caps_words	内容中仅由大写字母组成的单词的比例	Natural Language	Pretrainer’s Guide
rps_doc_frac_lines_end_with_ellipsis	以省略号结尾的行数比例	Natural Language	RefinedWeb, Gopher
rps_doc_frac_no_alph_words	不含字母字符的单词比例	Natural Language	RefinedWeb, Gopher
rps_doc_lorem_ipsum	lorem ipsum出现次数与内容字符数量的比率	Natural Language	C4
rps_doc_mean_word_length	内容中单词的平均长度	Natural Language	RefinedWeb, Gopher
rps_doc_stop_word_fraction	停用词数量与文档中单词数量的比率	Natural Language	RefinedWeb, Gopher

搜集汇总

数据集介绍

构建方式

RedPajama-V1和RedPajama-V2数据集的构建旨在解决开源语言模型在数据集组成和过滤方面的挑战。RedPajama-V1是对LLaMA训练数据集的公开再现，而RedPajama-V2则是一个仅包含网络数据的庞大数据集，包含原始、未过滤的文本数据以及质量信号和元数据。这两个数据集共同包含了超过100万亿个标记，涵盖多个领域，并通过质量信号促进数据过滤，旨在激发新数据集的开发。

特点

RedPajama数据集的主要特点包括其透明性、规模和多功能性。透明性体现在详细记录和公开数据集的构建过程，使开发者和研究者能够更好地理解和设计语言模型。规模方面，数据集提供了大量高质量的数据，这是构建强大语言模型的核心要素。多功能性则体现在提供了一个广泛、通用的网络文档语料库，每个文档都附有质量信号，使用户能够根据特定需求和标准做出明智的决策。

使用方法

RedPajama数据集主要用于训练大型语言模型（LLMs）。用户可以通过Huggingface Hub下载数据集，并根据提供的质量信号和元数据进行数据过滤和分析。数据集的设计原则包括透明性、规模和多功能性，这些原则指导了数据集的创建和使用，使得开发者和研究者能够更好地理解和设计语言模型，从而推动透明和高性能语言模型的发展。

背景与挑战

背景概述

RedPajama-V1和RedPajama-V2数据集是由Together AI、Stanford University、University of Chicago等多个机构的研究人员共同创建的，旨在解决大规模语言模型训练数据集的透明度和质量问题。这些数据集包含了超过100万亿个标记，涵盖多个领域，旨在推动开源语言模型的发展。RedPajama-V1是对LLaMA训练数据集的公开复现，而RedPajama-V2则是一个仅基于网络数据的巨大数据集，包含原始未过滤的文本数据以及质量信号和元数据。这些数据集已被用于训练如Snowflake Arctic、Salesforce’s XGen和AI2’s OLMo等强大的语言模型。

当前挑战

RedPajama数据集面临的挑战主要包括数据透明度、高质量数据的获取以及数据集的可用性。具体来说，构建这些数据集时需要解决模型开发过程中的透明度问题，确保数据采集过程的公开性；同时，需要访问大量高质量数据，这对资源和专业知识的要求极高；此外，还需要提供数据集的元数据和工件，以便于数据集的筛选和分析。在构建过程中，研究人员还面临数据组合和过滤规则的开发与优化，这需要大量的实验和调整。

常用场景

经典使用场景

RedPajama-V1和RedPajama-V2数据集的经典使用场景主要集中在训练大规模语言模型（LLMs）。这些数据集通过提供透明且高质量的数据，支持了多个开源LLMs的训练，如Snowflake Arctic、Salesforce的XGen和AI2的OLMo。通过这些数据集，研究者和开发者能够构建和优化高性能的语言模型，从而推动人工智能技术在自然语言处理领域的应用和发展。

衍生相关工作

基于RedPajama数据集，已经衍生出多个相关的经典工作，包括OpenELM、OLMo、Snowflake的Arctic和RedPajama-INCITE等。这些工作不仅利用了RedPajama数据集进行模型训练，还进一步推动了数据集的优化和扩展，形成了丰富的生态系统，促进了语言模型技术的不断进步。

数据集最近研究