saibo/bookcorpus_deduplicated

Name: saibo/bookcorpus_deduplicated
Creator: saibo
Published: 2022-12-29 16:24:22
License: 暂无描述

Hugging Face2022-12-29 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/saibo/bookcorpus_deduplicated

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个去重版本的原始Book Corpus数据集。Book Corpus（Zhu et al., 2015）曾被用于训练如BERT等流行模型，但根据Bandy和Vincent（2021）的研究，该数据集中存在大量完全重复的文档。去重后，数据集中的重复文本被删除，仅保留首次出现的文本，并保持文本出现的顺序。去重后的数据集包含38,832,894行文本，大小为2.91GB，而去重前为74,004,228行和4.63GB。去重训练数据具有多种优势，包括减少训练步骤、降低模型记忆文本的频率以及减少碳排放和能源消耗。

提供机构：

saibo

原始信息汇总

数据集概述

数据集名称

名称: bookcorpus_deduplicated

数据集特征

特征:
- text: 数据类型为字符串（string）

数据集拆分

拆分:
- train:
  - num_bytes: 2867856394
  - num_examples: 38832894

数据集大小

下载大小: 1794567875
数据集大小: 2867856394

数据集描述

描述: 此数据集是原始Book Corpus数据集的去重版本。原始数据集存在大量重复文档，去重后仅保留文本首次出现的内容，并保持文本出现的顺序。

去重效果

行数对比: 38832894（去重后）VS 74004228（原始）
数据集大小对比: 2.91GB（去重后）VS 4.63GB（原始）

去重原因

优势:
- 减少训练步骤，达到相同或更高精度
- 减少模型输出记忆文本的频率
- 降低碳排放和能源消耗

去重脚本

脚本概述: 使用Python脚本进行去重，通过Pandas和datasets库实现，运行时间短，不到几分钟。

参考文献

文献1: Bandy, Jack and Vincent, Nicholas. "Addressing Documentation Debt in Machine Learning Research: A Retrospective Datasheet for BookCorpus". arXiv:2105.05241 [cs.CL, cs.CY, cs.LG].
文献2: Lee, Katherine et al. "Deduplicating Training Data Makes Language Models Better". arXiv:2107.06499 [cs.CL, cs.LG].

5,000+

优质数据集

54 个

任务类型

进入经典数据集