togethercomputer/RedPajama-Data-V2|文本处理数据集|语言模型训练数据集

hugging_face2024-01-18 更新2024-03-04 收录

文本处理

语言模型训练

下载链接：

https://hf-mirror.com/datasets/togethercomputer/RedPajama-Data-V2

下载链接

链接失效反馈

资源简介：

Red Pajama V2是一个用于训练大型语言模型的开放数据集，包含超过1000亿个文本文档，其中30亿个文档带有质量信号，20亿个文档是去重后的唯一文档。数据集支持多种语言（如英语、德语、法语、西班牙语和意大利语），并提供了详细的下载和使用示例。此外，README还介绍了如何根据质量信号过滤数据集，并提供了质量注释的详细说明。

提供机构：

togethercomputer

原始信息汇总

数据集概述

名称: Red Pajama V2 Dataset

任务类别: 文本生成

语言: 英语（en）、德语（de）、法语（fr）、西班牙语（es）、意大利语（it）

数据集大小: 包含超过1000亿文本文档，其中300亿文档带有质量信号，200亿文档为去重后的唯一文档。

数据集内容

来源: 来自84个CommonCrawl快照，通过CCNet管道处理。
质量信号: 提供文档的质量信号，用于过滤和优化数据集。
去重: 提供重复文档的ID，可用于创建200亿去重文档的数据集。

数据集下载

示例数据集: python from datasets import load_dataset ds = load_dataset("togethercomputer/RedPajama-Data-V2", name="sample")
特定组合数据集: python from datasets import load_dataset ds = load_dataset("togethercomputer/RedPajama-Data-V2", name="default", partition="head_middle", snapshots=["2023-06", "2022-49"], languages=["en", "de"])
通过wget下载: bash wget "https://data.together.xyz/redpajama-data-v2/v1.0.0/urls/document-urls.txt" -O "document-urls.txt" wget "https://data.together.xyz/redpajama-data-v2/v1.0.0/urls/quality_signals-urls.txt" -O "quality_signals-urls.txt" wget "https://data.together.xyz/redpajama-data-v2/v1.0.0/urls/duplicates-urls.txt" -O "duplicates-urls.txt" wget "https://data.together.xyz/redpajama-data-v2/v1.0.0/urls/minhash-urls.txt" -O "minhash-urls.txt"

质量注释

注释标签	描述	类别	参考
ccnet_bucket	困惑度得分的头部、中部或尾部桶	CCNet	CCNet
ccnet_language_score	语言识别模型的得分	CCNet	CCNet
ccnet_length	字符数量	CCNet	CCNet
ccnet_nlines	行数	CCNet	CCNet
ccnet_original_length	行级去重前的字符数量	CCNet	CCNet
ccnet_original_nlines	行级去重前的行数	CCNet	CCNet
ccnet_perplexity	基于维基百科训练的语言模型的困惑度	CCNet	CCNet
rps_doc_books_importance	基于书籍的{1,2}-词组模型与源域模型之间的文档比率的对数	ML Heuristics	Importance Resampling (Xie et al.)
rps_doc_openwebtext_importance	基于OpenWebText的{1,2}-词组模型与源域模型之间的文档比率的对数	ML Heuristics	Importance Resampling (Xie et al.)
rps_doc_wikipedia_importance	基于维基百科文章的{1,2}-词组模型与源域模型之间的文档比率的对数	ML Heuristics	Importance Resampling (Xie et al.)
rps_doc_ml_wikiref_score	文档为维基百科参考的Fasttext分类器预测	ML Heuristics	LLaMA, RedPajama-1T
rps_doc_ml_palm_score	文档为维基百科文章、OpenWebText样本或RedPajama-V1书籍的Fasttext分类器预测	ML Heuristics	PALM, GLaM
rps_doc_ml_wikipedia_score	文档为维基百科文章的Fasttext分类器预测（非英语数据）	ML Heuristics	-
rps_doc_curly_bracket	原始文本中{或}的出现次数与字符总数的比率	Natural Language	C4
rps_doc_frac_all_caps_words	内容中仅包含大写字母的单词的比例	Natural Language	Pretrainer’s Guide
rps_doc_frac_lines_end_with_ellipsis	以省略号结尾的行的比例，省略号定义为"..."或"…"	Natural Language	RefinedWeb, Gopher
rps_doc_frac_no_alph_words	不包含字母字符的单词的比例	Natural Language	RefinedWeb, Gopher
rps_doc_lorem_ipsum	规范化后内容中lorem ipsum的出现次数与字符总数的比率	Natural Language	C4
rps_doc_mean_word_length	规范化后内容中单词的平均长度	Natural Language	RefinedWeb, Gopher
rps_doc_stop_word_fraction	文档中停用词与总词数的比率	Natural Language	Pretrainer’s Guide

AI搜集汇总

数据集介绍

构建方式

RedPajama-V2数据集是针对大型语言模型训练而设计的开放数据集，它汇集了超过1000亿篇文本文档，这些文档来源于84个CommonCrawl快照，并经过[CCNet](https://github.com/facebookresearch/cc_net)流程进行处理。数据集中包含30B文档的质量信号，并提供了重复文档的ID，以创建一个包含20B去重文档的数据集。数据集的构建详细过程、数据结构及模式可参阅[博客文章](https://together.ai/blog/redpajama-data-v2)。

特点

RedPajama-V2数据集具有多语言特点，支持英语、德语、法语、西班牙语和意大利语。它包含来自CommonCrawl的丰富文本数据，并经过严格的质量信号标注，方便用户进行数据筛选和清洗。此外，数据集还提供了重复文档的ID，便于用户创建去重后的数据集。

使用方法

RedPajama-V2数据集可通过Hugging Face的`load_dataset`函数进行下载和使用。用户可以选择下载特定语言、快照和分区组合的数据集，或者使用wget命令下载整个数据集。数据集提供了一系列质量信号，用户可以通过自定义的过滤规则对数据进行筛选，以适应不同的模型训练需求。

背景与挑战

背景概述

在自然语言处理领域，大规模语言模型（LLMs）的训练对数据集的质量和规模有着极高的要求。RedPajama V2 数据集正是在这样的背景下应运而生，旨在为训练大型语言模型提供高质量的数据资源。该数据集由 togethercomputer 团队创建，包含了来自 84 个 CommonCrawl 快照的超过 1000 亿文本文档，并通过 CCNet 管道进行处理。其中，30B 文档还附带质量信号，以便研究人员进行更精确的数据筛选。RedPajama V2 数据集的推出，无疑为语言模型的研究和应用提供了强有力的支持。

当前挑战

尽管 RedPajama V2 数据集提供了丰富的文本数据资源，但其构建和使用过程中仍面临着诸多挑战。首先，数据集的规模庞大，处理和存储需要大量计算资源，这对研究人员的硬件条件提出了较高要求。其次，如何利用数据集附带的丰富质量信号进行有效的数据筛选，以提升训练模型的质量，也是研究人员需要面对的问题。此外，由于数据集包含了来自不同语言和领域的文本，如何保证数据的一致性和可靠性，避免引入偏差，也是需要深入研究的课题。

常用场景

经典使用场景

RedPajama-V2数据集主要被用于训练大规模的语言模型。该数据集包含了超过1000亿个文本文档，这些文档来自于84个CommonCrawl的快照，并通过CCNet流程进行处理。其中，有300亿个文档附加了质量信号。此外，还提供了重复文档的ID，可以用于创建一个包含200亿个去重文档的数据集。

实际应用

RedPajama-V2数据集可以用于各种自然语言处理任务，如文本生成、文本分类、机器翻译等。由于该数据集包含了多种语言的数据，因此可以用于跨语言的自然语言处理任务。此外，该数据集还可以用于研究大规模语言模型的训练过程和性能。

衍生相关工作

RedPajama-V2数据集的发布衍生了一系列相关的经典工作，如Gopher、LLaMA等。这些工作利用RedPajama-V2数据集进行大规模语言模型的训练，并在多个自然语言处理任务中取得了优异的性能。此外，RedPajama-V2数据集还被用于研究数据质量对模型性能的影响，以及如何通过数据清洗和选择来提高模型性能。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

网易云音乐数据集

该数据集包含了网易云音乐平台上的歌手信息、歌曲信息和歌单信息，数据通过爬虫技术获取并整理成CSV格式，用于音乐数据挖掘和推荐系统构建。

github 收录

Beijing Traffic

The Beijing Traffic Dataset collects traffic speeds at 5-minute granularity for 3126 roadway segments in Beijing between 2022/05/12 and 2022/07/25.

Papers with Code 收录

CHARLS

中国健康与养老追踪调查（CHARLS）数据集，旨在收集反映中国45岁及以上中老年人家庭和个人的高质量微观数据，用以分析人口老龄化问题，内容包括健康状况、经济状况、家庭结构和社会支持等。

charls.pku.edu.cn 收录

OpenSonarDatasets

OpenSonarDatasets是一个致力于整合开放源代码声纳数据集的仓库，旨在为水下研究和开发提供便利。该仓库鼓励研究人员扩展当前的数据集集合，以增加开放源代码声纳数据集的可见性，并提供一个更容易查找和比较数据集的方式。

github 收录

中国空气质量数据集（2014-2020年）

数据集中的空气质量数据类型包括PM2.5, PM10, SO2, NO2, O3, CO, AQI，包含了2014-2020年全国360个城市的逐日空气质量监测数据。监测数据来自中国环境监测总站的全国城市空气质量实时发布平台，每日更新。数据集的原始文件为CSV的文本记录，通过空间化处理生产出Shape格式的空间数据。数据集包括CSV格式和Shape格式两数数据格式。

国家地球系统科学数据中心收录