ShivamPR21/RedPajama-Data-V2

Name: ShivamPR21/RedPajama-Data-V2
Creator: ShivamPR21
Published: 2024-02-22 13:10:17
License: 暂无描述

Hugging Face2024-02-22 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/ShivamPR21/RedPajama-Data-V2

下载链接

链接失效反馈

官方服务：

资源简介：

Red Pajama V2是一个用于训练大型语言模型的开放数据集，包含超过1000亿个文本文档，这些文档来自84个CommonCrawl快照，并使用CCNet管道进行处理。其中，30亿个文档带有质量信号，20亿个文档是去重后的唯一文档。数据集支持多种语言，包括英语、德语、法语、西班牙语和意大利语。

提供机构：

ShivamPR21

原始信息汇总

数据集概述

基本信息

任务类别: 文本生成
语言: 英语、德语、法语、西班牙语、意大利语
名称: Red Pajama V2 数据集

数据集详情

文档数量: 超过 1000 亿个文本文档
来源: 来自 84 个 CommonCrawl 快照，使用 CCNet 管道处理
质量标注文档数量: 300 亿个文档带有质量信号
去重后文档数量: 200 亿个独特文档

下载方式

示例数据集: python from datasets import load_dataset ds = load_dataset("togethercomputer/RedPajama-Data-V2", name="sample")
特定组合数据集: python from datasets import load_dataset ds = load_dataset("togethercomputer/RedPajama-Data-V2", name="default", partition="head_middle", snapshots=["2023-06", "2022-49"], languages=["en", "de"])
通过 wget 下载: bash wget "https://data.together.xyz/redpajama-data-v2/v1.0.0/urls/document-urls.txt" -O "document-urls.txt" wget "https://data.together.xyz/redpajama-data-v2/v1.0.0/urls/quality_signals-urls.txt" -O "quality_signals-urls.txt" wget "https://data.together.xyz/redpajama-data-v2/v1.0.0/urls/duplicates-urls.txt" -O "duplicates-urls.txt" wget "https://data.together.xyz/redpajama-data-v2/v1.0.0/urls/minhash-urls.txt" -O "minhash-urls.txt"

过滤规则

示例规则: python def gopher_rules_pass(sample) -> bool: signals = json.loads(sample["quality_signals"]) word_count = signals["rps_doc_word_count"][0][2] if word_count < 50 or word_count > 100_000: return False mean_word_length = signals["rps_doc_mean_word_length"][0][2] if mean_word_length < 3 or mean_word_length > 10: return False symbol_word_ratio = signals["rps_doc_symbol_to_word_ratio"][0][2] if symbol_word_ratio > 0.1: return False n_lines = signals["ccnet_nlines"][0][2] n_lines_bulletpoint_start = sum(map(lambda ln: ln[2], signals["rps_lines_start_with_bulletpoint"])) if n_lines_bulletpoint_start / n_lines > 0.9: return False top_2_gram_frac = signals["rps_doc_frac_chars_top_2gram"][0][2] if top_2_gram_frac > 0.2: return False return True

质量标注

标注标签:
- ccnet_bucket: 困惑度分数的头部、中部或尾部桶
- ccnet_language_score: 语言识别模型的分数
- ccnet_length: 字符数
- ccnet_nlines: 行数
- ccnet_original_length: 行级去重前的字符数
- ccnet_original_nlines: 行级去重前的行数
- ccnet_perplexity: 在维基百科上训练的语言模型的困惑度
- rps_doc_books_importance: 基于书籍的 {1,2}-wordgram 模型与源域模型的对数比率
- rps_doc_openwebtext_importance: 基于 OpenWebText 的 {1,2}-wordgram 模型与源域模型的对数比率
- rps_doc_wikipedia_importance: 基于维基百科文章的 {1,2}-wordgram 模型与源域模型的对数比率
- rps_doc_ml_wikiref_score: 文档为维基百科参考的 Fasttext 分类器预测
- rps_doc_ml_palm_score: 文档为维基百科文章、OpenWebText 样本或 RedPajama-V1 书籍的 Fasttext 分类器预测
- rps_doc_ml_wikipedia_score: 文档为维基百科文章的 Fasttext 分类器预测
- rps_doc_curly_bracket: 原始文本中 { 或 } 的出现次数与字符数的比率
- rps_doc_frac_all_caps_words: 仅由大写字母组成的单词的比率
- rps_doc_frac_lines_end_with_ellipsis: 以省略号结尾的行数比率
- rps_doc_frac_no_alph_words: 不含字母字符的单词比率
- rps_doc_lorem_ipsum: lorem ipsum 出现次数与规范化后内容字符数的比率
- rps_doc_mean_word_length: 规范化后内容的平均单词长度
- rps_doc_stop_word_fraction: 停用词与文档中单词数的比率

搜集汇总

数据集介绍

背景与挑战

背景概述

RedPajama-Data-V2是一个大规模、多语言的开放数据集，专为训练大型语言模型设计，包含超过1000亿个文本文档，其中300亿带有质量注释，200亿经过去重处理。数据集支持多种语言，并提供了详细的下载和使用指南。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集