five

bookcorpus/bookcorpus

收藏
Hugging Face2024-05-03 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/bookcorpus/bookcorpus
下载链接
链接失效反馈
资源简介:
BookCorpus数据集是一个包含大量英文书籍文本的语料库,主要用于文本生成和掩码语言建模任务。数据集来源于smashwords.com上的自出版书籍,经过处理后生成了包含书籍全文的文本文件。数据集的大小为4.85 GB,包含74004228个训练样本。数据集的创建目的是为了提供丰富的文本信息,用于训练AI系统。然而,数据集的收集和处理过程中存在一些伦理问题,如作者未被告知其作品被用于AI训练,且部分书籍包含版权声明,限制了其再分发。

The BookCorpus dataset is a corpus containing a large volume of English book texts, primarily used for text generation and masked language modeling tasks. It is sourced from self-published books on smashwords.com, and processed to generate text files containing full book contents. The dataset has a size of 4.85 GB and contains 74,004,228 training samples. It was created to provide rich textual information for training AI systems. However, there are some ethical issues in its collection and processing: authors were not notified that their works would be used for AI training, and some books contain copyright statements that restrict their redistribution.
提供机构:
bookcorpus
原始信息汇总

数据集概述

基本信息

  • 数据集名称: BookCorpus
  • 语言: 英语
  • 许可证: 未知
  • 多语言性: 单语种
  • 数据集大小: 10M<n<100M
  • 源数据: 原始数据
  • 任务类别: 文本生成, 填充掩码
  • 任务ID: 语言建模, 掩码语言建模
  • PapersWithCode ID: bookcorpus

数据集结构

  • 特征:
    • text: 字符串类型
  • 配置名称: plain_text
  • 分割:
    • train: 4853859824 字节, 74004228 样本
  • 下载大小: 1179510242 字节
  • 数据集大小: 4853859824 字节

数据实例

  • 示例: json { "text": "But I traded all my life for some lovin and some gold" }

数据字段

  • plain_text:
    • text: 字符串类型

数据分割

  • train: 74004228 样本

数据集创建

  • 数据收集与规范化:
    • 数据来源: smashwords.com
    • 收集方式: 通过抓取软件下载
    • 数据筛选: 免费且字数超过20,000的书籍

个人和敏感信息

  • 作者通知情况: 作者未被通知数据收集
  • 版权声明: 许多书籍包含版权限制,禁止重新分发

使用数据集的注意事项

  • 数据集的潜在影响: 包含重复书籍和采样偏差
  • 数据集的局限性: 未进行伦理审查,存在版权问题

附加信息

  • 数据表: 已创建并发布在Addressing "Documentation Debt" in Machine Learning Research: A Retrospective Datasheet for BookCorpus
  • 引用信息: bibtex @InProceedings{Zhu_2015_ICCV, title = {Aligning Books and Movies: Towards Story-Like Visual Explanations by Watching Movies and Reading Books}, author = {Zhu, Yukun and Kiros, Ryan and Zemel, Rich and Salakhutdinov, Ruslan and Urtasun, Raquel and Torralba, Antonio and Fidler, Sanja}, booktitle = {The IEEE International Conference on Computer Vision (ICCV)}, month = {December}, year = {2015} }
搜集汇总
数据集介绍
main_image_url
构建方式
BookCorpus数据集的构建主要依赖于从smashwords.com网站下载的电子书。该数据集的构建者使用爬虫软件从网站中搜集免费的电子书,并将这些电子书从epub格式转换为纯文本格式。在筛选标准上,仅包含超过20,000个单词的书籍,构成了一个非概率性的便利样本。数据集的构建过程中未详细说明数据清洗的步骤,但可以看出部分文本经过了初步的清洗,去除了部分前言和后记文本。
特点
BookCorpus数据集的特点在于其包含了大量的自我出版的书籍,这些书籍涵盖了多种类型和风格。数据集中的每本书都包含了完整的文本内容,包括前言、版权声明等。此外,数据集中存在一定数量的重复书籍,以及一些书籍的副本存在轻微的差异。数据集的一个显著特征是缺乏明确的标注或目标,最初用于无监督训练,书籍的类别信息由Smashwords网站提供。
使用方法
使用BookCorpus数据集时,用户可以直接利用其中的文本数据进行各种自然语言处理任务,如语言模型训练、填空等。由于数据集没有预定义的数据划分,用户通常需要根据自己的任务需求来决定如何划分训练集。在使用时,应注意数据集中可能存在的版权问题、重复数据以及采样偏差,并根据具体任务对数据集进行适当的子集选择和预处理。
背景与挑战
背景概述
BookCorpus数据集,创建于2015年,是由Yukun Zhu和Ryan Kiros等研究人员构建的。该数据集旨在通过收集Smashwords网站上的自出版书籍,以丰富细粒度信息和高级语义信息,为视觉内容提供详尽的描述性解释。BookCorpus包含11038本书,涵盖了多种类型,如小说、科幻、文学等。这些书籍最初用于无监督训练,如语言模型训练等任务。BookCorpus的构建对于自然语言处理领域,特别是在文本生成和填空任务中,具有重要的影响力。
当前挑战
在数据集构建过程中,研究者面临了诸多挑战。首先,数据集中存在大量的重复书籍,经过筛选后确认有7185本独特的书籍。其次,由于书籍是从Smashwords网站上抓取的,因此在版权和作者同意方面存在争议。作者们并未明确同意将他们的作品用于构建数据集,这可能涉及版权侵犯的问题。此外,数据集中还存在一些噪声和冗余信息,如版权声明和前言等文本,这些都需要在后续的数据处理中进行清理。
常用场景
经典使用场景
BookCorpus数据集作为文本生成领域的经典资源,其广泛应用于自然语言处理模型的预训练,特别是在构建能够理解和生成复杂文本结构的模型方面。该数据集包含大量自出版物,涵盖了丰富的语义信息和细致的描述,使得它在训练故事生成、文本填充等任务中具有显著优势。
解决学术问题
BookCorpus解决了学术研究中对于构建具有深层次理解能力语言模型的需求。通过该数据集,研究者能够训练模型以处理复杂的语言现象,如故事情节的连贯性和角色发展的逻辑性,这对于提升自然语言处理技术的语义理解能力至关重要。
衍生相关工作
基于BookCorpus的研究衍生出了多项相关工作,包括但不限于对数据集进行清洗、标注和扩展,以及利用该数据集进行情感分析、主题建模和跨模态学习的探索。这些工作进一步拓宽了BookCorpus的应用范围,促进了多领域的研究进展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作