five

datajuicer/the-pile-freelaw-refined-by-data-juicer

收藏
Hugging Face2023-10-23 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/datajuicer/the-pile-freelaw-refined-by-data-juicer
下载链接
链接失效反馈
官方服务:
资源简介:
The Pile -- FreeLaw数据集是由Data-Juicer精炼的一个版本,旨在通过移除原始数据集中的一些“不良”样本来提高数据质量。该数据集通常用于预训练大型语言模型。精炼后的数据集保留了原始数据集中约82.61%的样本,共计2,942,612个样本。精炼过程包括多种过滤和标准化操作,如清理电子邮件和链接、修复Unicode字符、标点符号和空白字符的标准化,以及基于字符重复、语言识别分数、文本长度等多种条件的过滤。
提供机构:
datajuicer
原始信息汇总

The Pile -- FreeLaw (refined by Data-Juicer)

数据集概述

  • 数据集名称: The Pile -- FreeLaw (refined by Data-Juicer)
  • 数据集来源: 由Data-Juicer精炼的FreeLaw数据集版本。
  • 数据集用途: 通常用于预训练大型语言模型。
  • 数据集大小: 约45GB(完整数据集)。
  • 样本数量: 2,942,612个样本(保留了原始数据集的约82.61%)。

数据集精炼方法

  • 全局参数:

    • 项目名称: Data-Juicer-recipes-freelaw
    • 数据集路径: /path/to/your/dataset
    • 导出路径: /path/to/your/dataset.jsonl
    • 子进程数量: 50
    • 开启追踪器: true
  • 处理流程:

    • 清洗电子邮件映射器
    • 清洗链接映射器
    • 修复Unicode映射器
    • 标点符号规范化映射器
    • 空白规范化映射器
    • 字母数字过滤器
    • 平均行长度过滤器
    • 字符重复过滤器
    • 标记词过滤器
    • 语言ID分数过滤器
    • 最大行长度过滤器
    • 困惑度过滤器
    • 特殊字符过滤器
    • 停用词过滤器
    • 文本长度过滤器
    • 词数过滤器
    • 词重复过滤器
    • 文档相似哈希去重器
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作