ShivamPR21/RedPajama-Data-V2
收藏数据集概述
基本信息
- 任务类别: 文本生成
- 语言: 英语、德语、法语、西班牙语、意大利语
- 名称: Red Pajama V2 数据集
数据集详情
- 文档数量: 超过 1000 亿个文本文档
- 来源: 来自 84 个 CommonCrawl 快照,使用 CCNet 管道处理
- 质量标注文档数量: 300 亿个文档带有质量信号
- 去重后文档数量: 200 亿个独特文档
下载方式
-
示例数据集: python from datasets import load_dataset ds = load_dataset("togethercomputer/RedPajama-Data-V2", name="sample")
-
特定组合数据集: python from datasets import load_dataset ds = load_dataset("togethercomputer/RedPajama-Data-V2", name="default", partition="head_middle", snapshots=["2023-06", "2022-49"], languages=["en", "de"])
-
通过 wget 下载: bash wget "https://data.together.xyz/redpajama-data-v2/v1.0.0/urls/document-urls.txt" -O "document-urls.txt" wget "https://data.together.xyz/redpajama-data-v2/v1.0.0/urls/quality_signals-urls.txt" -O "quality_signals-urls.txt" wget "https://data.together.xyz/redpajama-data-v2/v1.0.0/urls/duplicates-urls.txt" -O "duplicates-urls.txt" wget "https://data.together.xyz/redpajama-data-v2/v1.0.0/urls/minhash-urls.txt" -O "minhash-urls.txt"
过滤规则
- 示例规则: python def gopher_rules_pass(sample) -> bool: signals = json.loads(sample["quality_signals"]) word_count = signals["rps_doc_word_count"][0][2] if word_count < 50 or word_count > 100_000: return False mean_word_length = signals["rps_doc_mean_word_length"][0][2] if mean_word_length < 3 or mean_word_length > 10: return False symbol_word_ratio = signals["rps_doc_symbol_to_word_ratio"][0][2] if symbol_word_ratio > 0.1: return False n_lines = signals["ccnet_nlines"][0][2] n_lines_bulletpoint_start = sum(map(lambda ln: ln[2], signals["rps_lines_start_with_bulletpoint"])) if n_lines_bulletpoint_start / n_lines > 0.9: return False top_2_gram_frac = signals["rps_doc_frac_chars_top_2gram"][0][2] if top_2_gram_frac > 0.2: return False return True
质量标注
- 标注标签:
- ccnet_bucket: 困惑度分数的头部、中部或尾部桶
- ccnet_language_score: 语言识别模型的分数
- ccnet_length: 字符数
- ccnet_nlines: 行数
- ccnet_original_length: 行级去重前的字符数
- ccnet_original_nlines: 行级去重前的行数
- ccnet_perplexity: 在维基百科上训练的语言模型的困惑度
- rps_doc_books_importance: 基于书籍的 {1,2}-wordgram 模型与源域模型的对数比率
- rps_doc_openwebtext_importance: 基于 OpenWebText 的 {1,2}-wordgram 模型与源域模型的对数比率
- rps_doc_wikipedia_importance: 基于维基百科文章的 {1,2}-wordgram 模型与源域模型的对数比率
- rps_doc_ml_wikiref_score: 文档为维基百科参考的 Fasttext 分类器预测
- rps_doc_ml_palm_score: 文档为维基百科文章、OpenWebText 样本或 RedPajama-V1 书籍的 Fasttext 分类器预测
- rps_doc_ml_wikipedia_score: 文档为维基百科文章的 Fasttext 分类器预测
- rps_doc_curly_bracket: 原始文本中 { 或 } 的出现次数与字符数的比率
- rps_doc_frac_all_caps_words: 仅由大写字母组成的单词的比率
- rps_doc_frac_lines_end_with_ellipsis: 以省略号结尾的行数比率
- rps_doc_frac_no_alph_words: 不含字母字符的单词比率
- rps_doc_lorem_ipsum: lorem ipsum 出现次数与规范化后内容字符数的比率
- rps_doc_mean_word_length: 规范化后内容的平均单词长度
- rps_doc_stop_word_fraction: 停用词与文档中单词数的比率




