five

ShivamPR21/RedPajama-Data-V2

收藏
Hugging Face2024-02-22 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/ShivamPR21/RedPajama-Data-V2
下载链接
链接失效反馈
官方服务:
资源简介:
Red Pajama V2是一个用于训练大型语言模型的开放数据集,包含超过1000亿个文本文档,这些文档来自84个CommonCrawl快照,并使用CCNet管道进行处理。其中,30亿个文档带有质量信号,20亿个文档是去重后的唯一文档。数据集支持多种语言,包括英语、德语、法语、西班牙语和意大利语。

Red Pajama V2是一个用于训练大型语言模型的开放数据集,包含超过1000亿个文本文档,这些文档来自84个CommonCrawl快照,并使用CCNet管道进行处理。其中,30亿个文档带有质量信号,20亿个文档是去重后的唯一文档。数据集支持多种语言,包括英语、德语、法语、西班牙语和意大利语。
提供机构:
ShivamPR21
原始信息汇总

数据集概述

基本信息

  • 任务类别: 文本生成
  • 语言: 英语、德语、法语、西班牙语、意大利语
  • 名称: Red Pajama V2 数据集

数据集详情

  • 文档数量: 超过 1000 亿个文本文档
  • 来源: 来自 84 个 CommonCrawl 快照,使用 CCNet 管道处理
  • 质量标注文档数量: 300 亿个文档带有质量信号
  • 去重后文档数量: 200 亿个独特文档

下载方式

  • 示例数据集: python from datasets import load_dataset ds = load_dataset("togethercomputer/RedPajama-Data-V2", name="sample")

  • 特定组合数据集: python from datasets import load_dataset ds = load_dataset("togethercomputer/RedPajama-Data-V2", name="default", partition="head_middle", snapshots=["2023-06", "2022-49"], languages=["en", "de"])

  • 通过 wget 下载: bash wget "https://data.together.xyz/redpajama-data-v2/v1.0.0/urls/document-urls.txt" -O "document-urls.txt" wget "https://data.together.xyz/redpajama-data-v2/v1.0.0/urls/quality_signals-urls.txt" -O "quality_signals-urls.txt" wget "https://data.together.xyz/redpajama-data-v2/v1.0.0/urls/duplicates-urls.txt" -O "duplicates-urls.txt" wget "https://data.together.xyz/redpajama-data-v2/v1.0.0/urls/minhash-urls.txt" -O "minhash-urls.txt"

过滤规则

  • 示例规则: python def gopher_rules_pass(sample) -> bool: signals = json.loads(sample["quality_signals"]) word_count = signals["rps_doc_word_count"][0][2] if word_count < 50 or word_count > 100_000: return False mean_word_length = signals["rps_doc_mean_word_length"][0][2] if mean_word_length < 3 or mean_word_length > 10: return False symbol_word_ratio = signals["rps_doc_symbol_to_word_ratio"][0][2] if symbol_word_ratio > 0.1: return False n_lines = signals["ccnet_nlines"][0][2] n_lines_bulletpoint_start = sum(map(lambda ln: ln[2], signals["rps_lines_start_with_bulletpoint"])) if n_lines_bulletpoint_start / n_lines > 0.9: return False top_2_gram_frac = signals["rps_doc_frac_chars_top_2gram"][0][2] if top_2_gram_frac > 0.2: return False return True

质量标注

  • 标注标签:
    • ccnet_bucket: 困惑度分数的头部、中部或尾部桶
    • ccnet_language_score: 语言识别模型的分数
    • ccnet_length: 字符数
    • ccnet_nlines: 行数
    • ccnet_original_length: 行级去重前的字符数
    • ccnet_original_nlines: 行级去重前的行数
    • ccnet_perplexity: 在维基百科上训练的语言模型的困惑度
    • rps_doc_books_importance: 基于书籍的 {1,2}-wordgram 模型与源域模型的对数比率
    • rps_doc_openwebtext_importance: 基于 OpenWebText 的 {1,2}-wordgram 模型与源域模型的对数比率
    • rps_doc_wikipedia_importance: 基于维基百科文章的 {1,2}-wordgram 模型与源域模型的对数比率
    • rps_doc_ml_wikiref_score: 文档为维基百科参考的 Fasttext 分类器预测
    • rps_doc_ml_palm_score: 文档为维基百科文章、OpenWebText 样本或 RedPajama-V1 书籍的 Fasttext 分类器预测
    • rps_doc_ml_wikipedia_score: 文档为维基百科文章的 Fasttext 分类器预测
    • rps_doc_curly_bracket: 原始文本中 { 或 } 的出现次数与字符数的比率
    • rps_doc_frac_all_caps_words: 仅由大写字母组成的单词的比率
    • rps_doc_frac_lines_end_with_ellipsis: 以省略号结尾的行数比率
    • rps_doc_frac_no_alph_words: 不含字母字符的单词比率
    • rps_doc_lorem_ipsum: lorem ipsum 出现次数与规范化后内容字符数的比率
    • rps_doc_mean_word_length: 规范化后内容的平均单词长度
    • rps_doc_stop_word_fraction: 停用词与文档中单词数的比率
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
RedPajama-Data-V2是一个大规模、多语言的开放数据集,专为训练大型语言模型设计,包含超过1000亿个文本文档,其中300亿带有质量注释,200亿经过去重处理。数据集支持多种语言,并提供了详细的下载和使用指南。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作