datajuicer/redpajama-pile-stackexchange-refined-by-data-juicer
收藏RedPajama & The Pile -- StackExchange (refined by Data-Juicer)
概述
这是一个经过Data-Juicer精炼的StackExchange数据集版本,属于RedPajama & The Pile项目。该数据集去除了一些“不良”样本,以提高整体质量。通常用于预训练大型语言模型。
数据集信息
- 样本数量: 26,309,203个样本(保留了原始数据集的约57.89%)
精炼配方
yaml
全局参数
project_name: Data-Juicer-stack-exchange dataset_path: /path/to/your/dataset # 数据集目录或文件路径 export_path: /path/to/your/dataset.jsonl
np: 50 # 处理数据集的子进程数量 open_tracer: true
处理流程
一系列处理操作及其参数
process:
-
clean_email_mapper:
-
clean_links_mapper:
-
fix_unicode_mapper:
-
punctuation_normalization_mapper:
-
whitespace_normalization_mapper:
-
alphanumeric_filter: tokenization: false min_ratio: 0.35 # <3sigma max_ratio: 0.943 # 3sigma
-
average_line_length_filter: # 针对代码 min_len: 20 # >3sigma max_len: 400 # >3sigma
-
character_repetition_filter: rep_len: 10 max_ratio: 0.4 # >3sigma (0.12)
-
flagged_words_filter: lang: en tokenization: true max_ratio: 0.01 # >3sigma
-
language_id_score_filter: # 移除语言过滤器 min_score: 0.1 # <3sigma
-
maximum_line_length_filter: # 针对代码 min_len: 80
-
perplexity_filter: lang: en max_ppl: 10000 # >3sigma
-
special_characters_filter: min_ratio: 0.232 # 3sigma max_ratio: 0.7 # >3sigma
-
text_length_filter: min_len: 200
-
words_num_filter: lang: en tokenization: true min_num: 100
-
word_repetition_filter: lang: en tokenization: true rep_len: 10 max_ratio: 0.8 # >3sigma
-
document_simhash_deduplicator: #26309203 left tokenization: space window_size: 3 lowercase: true ignore_pattern:
num_blocks: 9 hamming_distance: 7



