five

datajuicer/the-pile-uspto-refined-by-data-juicer

收藏
Hugging Face2023-10-23 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/datajuicer/the-pile-uspto-refined-by-data-juicer
下载链接
链接失效反馈
官方服务:
资源简介:
--- license: apache-2.0 task_categories: - text-generation language: - en tags: - data-juicer - pretraining size_categories: - 1M<n<10M --- # The Pile -- USPTO (refined by Data-Juicer) A refined version of USPTO dataset in The Pile by [Data-Juicer](https://github.com/alibaba/data-juicer). Removing some "bad" samples from the original dataset to make it higher-quality. This dataset is usually used to pretrain a Large Language Model. **Notice**: Here is a small subset for previewing. The whole dataset is available [here](https://dail-wlcb.oss-cn-wulanchabu.aliyuncs.com/LLM_data/our_refined_datasets/pretraining/the-pile-uspto-refine-result.jsonl) (About 18G). ## Dataset Information - Number of samples: 4,516,283 (Keep ~46.77% from the original dataset) ## Refining Recipe ```yaml # global parameters project_name: 'Data-Juicer-recipes-uspto' dataset_path: '/path/to/your/dataset' # path to your dataset directory or file export_path: '/path/to/your/dataset.jsonl' # path to your dataset result file np: 50 # number of subprocess to process your dataset open_tracer: true # process schedule # a list of several process operators with their arguments process: - clean_email_mapper: - clean_links_mapper: - fix_unicode_mapper: - punctuation_normalization_mapper: - whitespace_normalization_mapper: - alphanumeric_filter: tokenization: false min_ratio: 0.7 # <3sigma (0.758) - average_line_length_filter: # for code max_len: 2000 # >3sigma (1307) - character_repetition_filter: rep_len: 10 max_ratio: 0.2 # >3sigma (0.189) - flagged_words_filter: lang: en tokenization: true max_ratio: 0.0016 # 3sigma - language_id_score_filter: min_score: 0.6 - maximum_line_length_filter: # for code max_len: 3061 # 3sigma - perplexity_filter: lang: en max_ppl: 4000 # 3sigma - special_characters_filter: max_ratio: 0.3 # > 3sigma (0.274) - text_length_filter: max_len: 21556 # 3sigma - words_num_filter: lang: en tokenization: true min_num: 100 max_num: 6000 # 3sigma - word_repetition_filter: lang: en tokenization: true rep_len: 10 max_ratio: 0.169 # 3sigma - document_simhash_deduplicator: tokenization: space window_size: 6 lowercase: true ignore_pattern: '\p{P}' num_blocks: 6 hamming_distance: 4 ```

license: Apache-2.0 task_categories: - 文本生成 language: - 英语 tags: - Data-Juicer - 预训练 size_categories: - 100万 < 样本数 < 1000万 # 《The Pile》数据集之USPTO子集(经Data-Juicer精炼) 本数据集是《The Pile》数据集中USPTO子集经Data-Juicer(https://github.com/alibaba/data-juicer)精炼后的版本,通过移除原始数据集中的低质量样本以提升整体数据品质。 该数据集通常用于大语言模型(Large Language Model,LLM)的预训练任务。 **注意**:当前仅为用于预览的小型子集,完整数据集可通过[此链接](https://dail-wlcb.oss-cn-wulanchabu.aliyuncs.com/LLM_data/our_refined_datasets/pretraining/the-pile-uspto-refine-result.jsonl)获取(文件大小约18GB)。 ## 数据集详情 - 样本数量:4,516,283条(保留原始数据集约46.77%的样本) ## 精炼流程 yaml # 全局参数 project_name: 'Data-Juicer-recipes-uspto' dataset_path: '/path/to/your/dataset' # 数据集目录或文件路径 export_path: '/path/to/your/dataset.jsonl' # 数据集结果文件路径 np: 50 # 数据集处理的并行进程数 open_tracer: true # 处理流程 # 由多个处理算子及其参数组成的列表 process: - clean_email_mapper: # 清理电子邮件映射算子 - clean_links_mapper: # 清理链接映射算子 - fix_unicode_mapper: # 修复Unicode编码映射算子 - punctuation_normalization_mapper: # 标点符号规范化映射算子 - whitespace_normalization_mapper: # 空白字符规范化映射算子 - alphanumeric_filter: tokenization: false min_ratio: 0.7 # 阈值为3σ(0.758) - average_line_length_filter: # 平均行长度过滤算子(针对代码场景) max_len: 2000 # 阈值为3σ(1307) - character_repetition_filter: rep_len: 10 max_ratio: 0.2 # 阈值为3σ(0.189) - flagged_words_filter: lang: en tokenization: true max_ratio: 0.0016 # 阈值为3σ - language_id_score_filter: min_score: 0.6 - maximum_line_length_filter: # 最大行长度过滤算子(针对代码场景) max_len: 3061 # 阈值为3σ - perplexity_filter: # 困惑度过滤算子 lang: en max_ppl: 4000 # 阈值为3σ - special_characters_filter: max_ratio: 0.3 # 阈值为3σ(0.274) - text_length_filter: max_len: 21556 # 阈值为3σ - words_num_filter: lang: en tokenization: true min_num: 100 max_num: 6000 # 阈值为3σ - word_repetition_filter: lang: en tokenization: true rep_len: 10 max_ratio: 0.169 # 阈值为3σ - document_simhash_deduplicator: # 文档SimHash去重算子 tokenization: space window_size: 6 lowercase: true ignore_pattern: 'p{P}' num_blocks: 6 hamming_distance: 4
提供机构:
datajuicer
原始信息汇总

The Pile -- USPTO (refined by Data-Juicer)

数据集概述

  • 许可证:apache-2.0
  • 任务类别:text-generation
  • 语言:en
  • 标签:data-juicer, pretraining
  • 大小类别:1M<n<10M

数据集描述

  • 版本:经过Data-Juicer精炼的USPTO数据集版本,去除了部分“不良”样本,提高了数据质量。
  • 用途:通常用于预训练大型语言模型。
  • 注意:此处提供了一个小样本子集用于预览,完整数据集可在此处获取(约18G)。

数据集信息

  • 样本数量:4,516,283(保留了原数据集的约46.77%)

精炼配方

yaml

全局参数

project_name: Data-Juicer-recipes-uspto dataset_path: /path/to/your/dataset # 数据集目录或文件路径 export_path: /path/to/your/dataset.jsonl # 数据集结果文件路径

np: 50 # 处理数据集的子进程数量 open_tracer: true

处理流程

一系列处理操作及其参数

process:

  • clean_email_mapper:

  • clean_links_mapper:

  • fix_unicode_mapper:

  • punctuation_normalization_mapper:

  • whitespace_normalization_mapper:

  • alphanumeric_filter: tokenization: false min_ratio: 0.7 # <3sigma (0.758)

  • average_line_length_filter: # 针对代码 max_len: 2000 # >3sigma (1307)

  • character_repetition_filter: rep_len: 10 max_ratio: 0.2 # >3sigma (0.189)

  • flagged_words_filter: lang: en tokenization: true max_ratio: 0.0016 # 3sigma

  • language_id_score_filter: min_score: 0.6

  • maximum_line_length_filter: # 针对代码 max_len: 3061 # 3sigma

  • perplexity_filter: lang: en max_ppl: 4000 # 3sigma

  • special_characters_filter: max_ratio: 0.3 # > 3sigma (0.274)

  • text_length_filter: max_len: 21556 # 3sigma

  • words_num_filter: lang: en tokenization: true min_num: 100 max_num: 6000 # 3sigma

  • word_repetition_filter: lang: en tokenization: true rep_len: 10 max_ratio: 0.169 # 3sigma

  • document_simhash_deduplicator: tokenization: space window_size: 6 lowercase: true ignore_pattern: p{P} num_blocks: 6 hamming_distance: 4

搜集汇总
数据集介绍
main_image_url
构建方式
在自然语言处理领域,高质量数据是预训练语言模型性能提升的关键。本数据集基于The Pile中的USPTO原始语料,通过Data-Juicer框架实施精细化处理流程构建而成。构建过程采用多阶段过滤与清洗策略,包括电子邮件与链接清理、字符标准化、标点规范化等基础文本处理操作,随后应用一系列统计过滤器,如字母数字比例、行长度、字符重复率、语言识别分数及困惑度等阈值筛选,确保文本符合语言模型训练需求。最终通过文档SimHash去重技术,有效移除冗余样本,保留了约46.77%的高质量数据,共计约451万条样本,显著提升了语料的纯净度与一致性。
特点
该数据集专为英文文本生成任务设计,聚焦于预训练语言模型的高质量语料需求。其核心特点在于经过严格的数据清洗与过滤,移除了原始USPTO数据中的低质量样本,如含有过多特殊字符、重复内容或非英语主导的文本。数据集规模适中,介于百万至千万级别,适用于大规模模型训练。语料内容源自美国专利商标局文档,富含技术性术语与结构化语言,为模型提供了专业领域的语言表征能力。通过去重与多维度过滤,数据集在保持领域特异性的同时,增强了文本的多样性与信息密度,为模型预训练提供了可靠的基础。
使用方法
本数据集主要用于大型语言模型的预训练阶段,用户可直接通过提供的JSONL格式文件加载数据。使用方法较为直观,需将数据集路径配置至训练流程中,作为输入语料进行模型权重初始化。在实践过程中,建议结合具体任务需求,可能需进一步分割为训练集与验证集,以监控模型性能。由于数据集已预先清洗,用户可减少额外预处理步骤,直接投入训练。对于预览版本,用户可快速评估数据质量;完整数据集约18GB,适用于分布式训练环境。通过集成此类高质量语料,能够有效提升模型在技术文本生成和理解任务上的表现。
背景与挑战
背景概述
在自然语言处理领域,高质量预训练数据是大型语言模型性能提升的关键。The Pile数据集由EleutherAI于2020年发布,整合了多样化的文本资源,旨在为模型提供广泛的语言理解基础。其中USPTO子集源自美国专利商标局的公开专利文档,蕴含丰富的技术术语与结构化知识,对提升模型在专业领域的生成能力具有显著价值。Data-Juicer团队在此基础上进行了精细化处理,通过自动化流程剔除低质量样本,保留了约46.77%的高价值数据,为语言模型预训练提供了更纯净的知识源。
当前挑战
该数据集致力于解决专利文本预训练中的领域适应性问题,其核心挑战在于专利文献兼具技术密集性与法律规范性,要求模型能准确理解专业术语与复杂句式。原始数据包含大量噪声,如格式混乱、非常规字符及重复片段,易导致模型产生偏差。构建过程中,团队需平衡数据质量与规模,通过多维度过滤策略(如语言识别、重复检测、困惑度评估)识别并移除低效样本,同时避免过度清洗造成的知识损失。此外,专利文本的长文档特性与特殊符号处理,进一步增加了数据标准化的难度。
常用场景
经典使用场景
在自然语言处理领域,高质量语料库是预训练大型语言模型(LLM)的基石。datajuicer/the-pile-uspto-refined-by-data-juicer数据集作为The Pile中USPTO子集的精炼版本,专门用于语言模型的预训练阶段。该数据集通过Data-Juicer工具链系统性地移除了原始数据中的低质量样本,如冗余字符、异常格式及噪声文本,从而提升了语料的整体纯净度与一致性,为模型提供了更可靠的知识来源。
解决学术问题
该数据集主要应对预训练语料中普遍存在的质量不均问题,如噪声干扰、格式混乱及内容重复等。通过集成多种过滤与去重算子,它有效缓解了低质量数据对模型性能的负面影响,助力研究者构建更稳健的语言理解基础。其意义在于为大规模预训练提供了经过验证的高质量文本资源,推动了数据清洗方法论的发展,并为评估语料质量对模型泛化能力的影响提供了实证基础。
衍生相关工作
围绕该数据集衍生的经典工作主要集中在数据清洗与质量评估领域。Data-Juicer框架本身便是一套系统化的数据精炼工具集,其提出的多算子协同过滤策略为后续语料构建研究提供了参考。此外,基于精炼数据训练的模型常被用于对比原始与清洗后语料对下游任务的影响,相关实验已成为评估数据质量价值的标准范式之一,进一步推动了数据为中心的人工智能研究进展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作