datajuicer/redpajama-arxiv-refined-by-data-juicer

Name: datajuicer/redpajama-arxiv-refined-by-data-juicer
Creator: datajuicer
Published: 2023-10-23 08:37:41
License: 暂无描述

Hugging Face2023-10-23 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/datajuicer/redpajama-arxiv-refined-by-data-juicer

下载链接

链接失效反馈

官方服务：

资源简介：

RedPajama -- ArXiv数据集是经过Data-Juicer精炼的ArXiv数据集版本，通过移除一些低质量样本以提高数据集质量，通常用于预训练大型语言模型。该数据集包含1,655,259个样本，保留了原始数据集约95.99%的内容。精炼过程包括多种数据处理操作，如清理电子邮件和链接、修复Unicode、标点符号和空白标准化、过滤字母数字、平均行长度、字符重复、标记词、最大行长度、困惑度、特殊字符、文本长度、单词数量和单词重复等。

A refined version of the ArXiv dataset in the RedPajama project by Data-Juicer, containing 1,655,259 samples, retaining approximately 95.99% of the original dataset. This dataset is enhanced by removing bad samples and applying various refining steps and filters, typically used for pretraining large language models.

提供机构：

datajuicer

原始信息汇总

RedPajama -- ArXiv (refined by Data-Juicer)

概述

这是一个由Data-Juicer精炼的ArXiv数据集版本，旨在通过移除部分“不良”样本提高数据集质量。该数据集通常用于预训练大型语言模型。

数据集信息

样本数量: 1,655,259 (保留了原数据集的约95.99%)
语言: 英语
任务类别: 文本生成
标签: data-juicer, pretraining
大小类别: 1M<n<10M
许可证: Apache-2.0

精炼配方

全局参数:
- 项目名称: Data-Juicer-arxivrecipes-arxiv
- 数据集路径: /path/to/your/dataset
- 导出路径: /path/to/your/dataset.jsonl
- 子进程数量: 50
- 开启追踪器: true
处理流程:
- 清理电子邮件映射器
- 清理链接映射器
- 修复Unicode映射器
- 标点符号规范化映射器
- 空白规范化映射器
- 字母数字过滤器
- 平均行长度过滤器
- 字符重复过滤器
- 标记词过滤器
- 最大行长度过滤器
- 困惑度过滤器
- 特殊字符过滤器
- 文本长度过滤器
- 词数过滤器
- 词重复过滤器
- 文档Simhash去重器

5,000+

优质数据集

54 个

任务类型

进入经典数据集