togethercomputer/RedPajama-Data-V2
收藏数据集概述
名称: Red Pajama V2 Dataset
任务类别: 文本生成
语言: 英语(en)、德语(de)、法语(fr)、西班牙语(es)、意大利语(it)
数据集大小: 包含超过1000亿文本文档,其中300亿文档带有质量信号,200亿文档为去重后的唯一文档。
数据集内容
- 来源: 来自84个CommonCrawl快照,通过CCNet管道处理。
- 质量信号: 提供文档的质量信号,用于过滤和优化数据集。
- 去重: 提供重复文档的ID,可用于创建200亿去重文档的数据集。
数据集下载
-
示例数据集: python from datasets import load_dataset ds = load_dataset("togethercomputer/RedPajama-Data-V2", name="sample")
-
特定组合数据集: python from datasets import load_dataset ds = load_dataset("togethercomputer/RedPajama-Data-V2", name="default", partition="head_middle", snapshots=["2023-06", "2022-49"], languages=["en", "de"])
-
通过wget下载: bash wget "https://data.together.xyz/redpajama-data-v2/v1.0.0/urls/document-urls.txt" -O "document-urls.txt" wget "https://data.together.xyz/redpajama-data-v2/v1.0.0/urls/quality_signals-urls.txt" -O "quality_signals-urls.txt" wget "https://data.together.xyz/redpajama-data-v2/v1.0.0/urls/duplicates-urls.txt" -O "duplicates-urls.txt" wget "https://data.together.xyz/redpajama-data-v2/v1.0.0/urls/minhash-urls.txt" -O "minhash-urls.txt"
质量注释
| 注释标签 | 描述 | 类别 | 参考 |
|---|---|---|---|
| ccnet_bucket | 困惑度得分的头部、中部或尾部桶 | CCNet | CCNet |
| ccnet_language_score | 语言识别模型的得分 | CCNet | CCNet |
| ccnet_length | 字符数量 | CCNet | CCNet |
| ccnet_nlines | 行数 | CCNet | CCNet |
| ccnet_original_length | 行级去重前的字符数量 | CCNet | CCNet |
| ccnet_original_nlines | 行级去重前的行数 | CCNet | CCNet |
| ccnet_perplexity | 基于维基百科训练的语言模型的困惑度 | CCNet | CCNet |
| rps_doc_books_importance | 基于书籍的{1,2}-词组模型与源域模型之间的文档比率的对数 | ML Heuristics | Importance Resampling (Xie et al.) |
| rps_doc_openwebtext_importance | 基于OpenWebText的{1,2}-词组模型与源域模型之间的文档比率的对数 | ML Heuristics | Importance Resampling (Xie et al.) |
| rps_doc_wikipedia_importance | 基于维基百科文章的{1,2}-词组模型与源域模型之间的文档比率的对数 | ML Heuristics | Importance Resampling (Xie et al.) |
| rps_doc_ml_wikiref_score | 文档为维基百科参考的Fasttext分类器预测 | ML Heuristics | LLaMA, RedPajama-1T |
| rps_doc_ml_palm_score | 文档为维基百科文章、OpenWebText样本或RedPajama-V1书籍的Fasttext分类器预测 | ML Heuristics | PALM, GLaM |
| rps_doc_ml_wikipedia_score | 文档为维基百科文章的Fasttext分类器预测(非英语数据) | ML Heuristics | - |
| rps_doc_curly_bracket | 原始文本中{或}的出现次数与字符总数的比率 | Natural Language | C4 |
| rps_doc_frac_all_caps_words | 内容中仅包含大写字母的单词的比例 | Natural Language | Pretrainer’s Guide |
| rps_doc_frac_lines_end_with_ellipsis | 以省略号结尾的行的比例,省略号定义为"..."或"…" | Natural Language | RefinedWeb, Gopher |
| rps_doc_frac_no_alph_words | 不包含字母字符的单词的比例 | Natural Language | RefinedWeb, Gopher |
| rps_doc_lorem_ipsum | 规范化后内容中lorem ipsum的出现次数与字符总数的比率 | Natural Language | C4 |
| rps_doc_mean_word_length | 规范化后内容中单词的平均长度 | Natural Language | RefinedWeb, Gopher |
| rps_doc_stop_word_fraction | 文档中停用词与总词数的比率 | Natural Language | Pretrainer’s Guide |




