datajuicer/the-pile-pubmed-abstracts-refined-by-data-juicer

Name: datajuicer/the-pile-pubmed-abstracts-refined-by-data-juicer
Creator: datajuicer
Published: 2023-10-23 09:34:32
License: 暂无描述

Hugging Face2023-10-23 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/datajuicer/the-pile-pubmed-abstracts-refined-by-data-juicer

下载链接

链接失效反馈

官方服务：

资源简介：

这是The Pile中PubMed Abstracts数据集的精炼版本，由Data-Juicer工具处理，移除了原始数据集中的一些低质量样本，以提高数据集的质量。该数据集通常用于预训练大型语言模型。数据集包含371,331个样本，保留了原始数据集的约99.55%。数据精炼过程包括多个步骤，如清理电子邮件、链接、修复Unicode、标点符号和空格标准化，以及应用多种过滤器来去除不符合特定标准的样本。

提供机构：

datajuicer

原始信息汇总

The Pile -- PubMed Abstracts (refined by Data-Juicer)

数据集概述

数据集名称: The Pile -- PubMed Abstracts (refined by Data-Juicer)
数据集描述: 这是PubMed Abstracts数据集的一个精炼版本，通过Data-Juicer去除了一些“不良”样本，以提高数据质量。
数据集用途: 通常用于预训练大型语言模型。
数据集大小: 包含371,331个样本，保留了原始数据集的约99.55%。

数据集精炼方法

全局参数:
- 项目名称: Data-Juicer-recipes-pubmed-abstract
- 数据集路径: /path/to/your/dataset
- 导出路径: /path/to/your/dataset.jsonl
- 子进程数量: 50
- 开启追踪器: true
处理流程:
- 清洗电子邮件映射器
- 清洗链接映射器
- 修复Unicode映射器
- 标点符号规范化映射器
- 空白规范化映射器
- 字母数字过滤器
- 平均行长度过滤器
- 字符重复过滤器
- 标记词过滤器
- 语言ID分数过滤器
- 最大行长度过滤器
- 困惑度过滤器
- 特殊字符过滤器
- 文本长度过滤器
- 词数过滤器
- 词重复过滤器
- 文档Simhash去重器

5,000+

优质数据集

54 个

任务类型

进入经典数据集