five

datajuicer/redpajama-wiki-refined-by-data-juicer

收藏
Hugging Face2023-10-23 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/datajuicer/redpajama-wiki-refined-by-data-juicer
下载链接
链接失效反馈
官方服务:
资源简介:
RedPajama -- Wikipedia数据集是经过Data-Juicer精炼的Wikipedia数据集版本,旨在通过移除一些“不良”样本来提高数据集的质量。该数据集通常用于预训练大型语言模型。数据集包含26,990,659个样本,保留了原始数据集中约90.47%的内容。精炼过程包括多个步骤,如清理电子邮件和链接、修复Unicode字符、标点符号和空格规范化、过滤字母数字字符、过滤重复字符和单词、语言识别评分过滤、文本长度过滤等。
提供机构:
datajuicer
原始信息汇总

RedPajama -- Wikipedia (refined by Data-Juicer)

概述

这是一个由Data-Juicer精炼的维基百科数据集版本,去除了一些“不良”样本,以提高数据集的质量。该数据集通常用于预训练大型语言模型。

数据集信息

  • 样本数量: 26,990,659(保留了原始数据集的约90.47%)

精炼配方

yaml

全局参数

project_name: Data-Juicer-recipes-wiki dataset_path: /path/to/your/dataset # 数据集目录或文件路径 export_path: /path/to/your/dataset.jsonl

np: 50 # 用于处理数据集的子进程数量 open_tracer: true

处理流程

一系列处理操作及其参数

process:

  • clean_email_mapper:

  • clean_links_mapper:

  • fix_unicode_mapper:

  • punctuation_normalization_mapper:

  • whitespace_normalization_mapper:

  • alphanumeric_filter: tokenization: false min_ratio: 0.6 # <3sigma (0.735) max_ratio: 0.884 # 3sigma

  • average_line_length_filter: # 针对代码 max_len: 192 # 3sigma

  • character_repetition_filter: rep_len: 10 max_ratio: 0.4 # >3sigma (0.197)

  • flagged_words_filter: lang: en tokenization: true max_ratio: 0.0019 # 3sigma

  • language_id_score_filter: min_score: 0.689 # 3sigma

  • maximum_line_length_filter: # 针对代码 max_len: 1630 # 3sigma tbd

  • perplexity_filter: lang: en max_ppl: 6887 # 3sigma

  • special_characters_filter: max_ratio: 0.5 # >3sigma (0.34)

  • text_length_filter: max_len: 18221 # 3sigma

  • words_num_filter: lang: en tokenization: true min_num: 20 max_num: 6086 # 3sigma

  • word_repetition_filter: lang: en tokenization: true rep_len: 10 max_ratio: 0.3 # 3sigma (0.194)

  • document_simhash_deduplicator: tokenization: space window_size: 6 lowercase: true ignore_pattern: p{P} num_blocks: 6 hamming_distance: 4

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作