datajuicer/redpajama-cc-2019-30-refined-by-data-juicer

Name: datajuicer/redpajama-cc-2019-30-refined-by-data-juicer
Creator: datajuicer
Published: 2023-10-23 08:57:10
License: 暂无描述

Hugging Face2023-10-23 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/datajuicer/redpajama-cc-2019-30-refined-by-data-juicer

下载链接

链接失效反馈

官方服务：

资源简介：

RedPajama -- CommonCrawl-2019-30数据集是经过Data-Juicer工具精炼的版本，旨在通过去除原始数据集中的低质量样本来提高数据集的质量。该数据集主要用于预训练大型语言模型。数据集包含36,557,283个样本，保留了原始数据集的约45.08%。精炼过程包括多个步骤，如文档去重、清理电子邮件和链接、修复Unicode字符、标点符号和空白字符的规范化，以及多种过滤器应用，如字母数字过滤器、平均行长度过滤器、字符重复过滤器等，以确保数据集的高质量。

提供机构：

datajuicer

原始信息汇总

RedPajama -- CommonCrawl-2019-30 (refined by Data-Juicer)

这是一个由Data-Juicer精炼的CommonCrawl-2019-30数据集的版本，去除了原始数据集中的一些“不良”样本，以提高数据质量。该数据集通常用于预训练大型语言模型。

注意：这里提供的是一个小子集用于预览。完整数据集可在此处获取（约240GB）。

数据集信息

样本数量：36,557,283（保留了原始数据集的约45.08%）

精炼配方

yaml

全局参数

project_name: Data-Juicer-recipes-cc-2019-30 dataset_path: /path/to/your/dataset # 数据集目录或文件的路径 export_path: /path/to/your/dataset.jsonl

np: 50 # 用于处理数据集的子进程数量 open_tracer: true

处理计划

一系列处理操作及其参数

process:

document_simhash_deduplicator: tokenization: space window_size: 6 lowercase: true ignore_pattern: p{P} num_blocks: 6 hamming_distance: 4
clean_email_mapper:
clean_links_mapper:
fix_unicode_mapper:
punctuation_normalization_mapper:
whitespace_normalization_mapper:
alphanumeric_filter: # 770218 tokenization: false min_ratio: 0.7489 # 3sigma max_ratio: 0.8585 # 3sigma
average_line_length_filter: # 用于代码 max_len: 1500 # < 3sigma (2689) -- 177520
character_repetition_filter: rep_len: 10 max_ratio: 0.3 # > 3sigma (0.1491) -- 151703
flagged_words_filter: lang: en tokenization: true max_ratio: 0.0025 # 3sigma -- 101540
language_id_score_filter: # 移除语言过滤器 min_score: 0.788 # 3sigma -- 1622574
maximum_line_length_filter: # 用于代码 max_len: 5000 # < 3sigma (8775) -- 485806
perplexity_filter: lang: en max_ppl: 5000 # < 3sigma (6723) -- 676914
special_characters_filter: min_ratio: 0.15 # > 3sigma (0.104) max_ratio: 0.35 # > 3sigma (0.322) -- 859797
text_length_filter: max_len: 65589 # 3sigma -- 975142
words_num_filter: lang: en tokenization: true min_num: 20 # > 3sigma -- 196 max_num: 13030 # 3sigma -- 989078
word_repetition_filter: lang: en tokenization: true rep_len: 10 max_ratio: 0.279 # 3sigma -- 1716308

5,000+

优质数据集

54 个

任务类型

进入经典数据集