datajuicer/the-pile-pubmed-central-refined-by-data-juicer
收藏Hugging Face2023-10-23 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/datajuicer/the-pile-pubmed-central-refined-by-data-juicer
下载链接
链接失效反馈官方服务:
资源简介:
这是The Pile中PubMed Central数据集的一个精炼版本,由Data-Juicer工具处理,去除了原始数据集中的一些低质量样本,以提高数据集的质量。数据集通常用于预训练大型语言模型。数据集的样本数量为2,694,860,保留了原始数据集的约86.96%。数据集的精炼过程包括多种过滤器和映射器的应用,如清理电子邮件、链接、修复Unicode、标点符号和空白字符的规范化,以及基于字符重复、语言识别分数、文本长度、单词数量等条件的过滤。
提供机构:
datajuicer
原始信息汇总
The Pile -- PubMed Central (refined by Data-Juicer)
概述
这是一个经过Data-Juicer精炼的PubMed Central数据集版本,去除了原始数据集中的一些“不良”样本,以提高数据质量。该数据集通常用于预训练大型语言模型。
数据集信息
- 样本数量: 2,694,860(保留了原始数据集的约86.96%)
- 语言: 英语
- 标签: data-juicer, pretraining
- 大小类别: 1M<n<10M
精炼配方
-
全局参数:
- 项目名称: Data-Juicer-recipes-pubmed-central
- 数据集路径: /path/to/your/dataset
- 导出路径: /path/to/your/dataset.jsonl
- 子进程数量: 50
- 开启追踪: true
-
处理流程:
- 清洗电子邮件映射器
- 清洗链接映射器
- 修复Unicode映射器
- 标点符号规范化映射器
- 空白规范化映射器
- 字母数字过滤器
- 平均行长度过滤器
- 字符重复过滤器
- 标记词过滤器
- 语言ID分数过滤器
- 最大行长度过滤器
- 困惑度过滤器
- 特殊字符过滤器
- 文本长度过滤器
- 词数过滤器
- 词重复过滤器
- 文档Simhash去重器



