five

bookcorpus/bookcorpus|文本生成数据集|语言模型数据集

收藏
hugging_face2024-05-03 更新2024-06-15 收录
文本生成
语言模型
下载链接:
https://hf-mirror.com/datasets/bookcorpus/bookcorpus
下载链接
链接失效反馈
资源简介:
BookCorpus数据集是一个包含大量英文书籍文本的语料库,主要用于文本生成和掩码语言建模任务。数据集来源于smashwords.com上的自出版书籍,经过处理后生成了包含书籍全文的文本文件。数据集的大小为4.85 GB,包含74004228个训练样本。数据集的创建目的是为了提供丰富的文本信息,用于训练AI系统。然而,数据集的收集和处理过程中存在一些伦理问题,如作者未被告知其作品被用于AI训练,且部分书籍包含版权声明,限制了其再分发。
提供机构:
bookcorpus
原始信息汇总

数据集概述

基本信息

  • 数据集名称: BookCorpus
  • 语言: 英语
  • 许可证: 未知
  • 多语言性: 单语种
  • 数据集大小: 10M<n<100M
  • 源数据: 原始数据
  • 任务类别: 文本生成, 填充掩码
  • 任务ID: 语言建模, 掩码语言建模
  • PapersWithCode ID: bookcorpus

数据集结构

  • 特征:
    • text: 字符串类型
  • 配置名称: plain_text
  • 分割:
    • train: 4853859824 字节, 74004228 样本
  • 下载大小: 1179510242 字节
  • 数据集大小: 4853859824 字节

数据实例

  • 示例: json { "text": "But I traded all my life for some lovin and some gold" }

数据字段

  • plain_text:
    • text: 字符串类型

数据分割

  • train: 74004228 样本

数据集创建

  • 数据收集与规范化:
    • 数据来源: smashwords.com
    • 收集方式: 通过抓取软件下载
    • 数据筛选: 免费且字数超过20,000的书籍

个人和敏感信息

  • 作者通知情况: 作者未被通知数据收集
  • 版权声明: 许多书籍包含版权限制,禁止重新分发

使用数据集的注意事项

  • 数据集的潜在影响: 包含重复书籍和采样偏差
  • 数据集的局限性: 未进行伦理审查,存在版权问题

附加信息

  • 数据表: 已创建并发布在Addressing "Documentation Debt" in Machine Learning Research: A Retrospective Datasheet for BookCorpus
  • 引用信息: bibtex @InProceedings{Zhu_2015_ICCV, title = {Aligning Books and Movies: Towards Story-Like Visual Explanations by Watching Movies and Reading Books}, author = {Zhu, Yukun and Kiros, Ryan and Zemel, Rich and Salakhutdinov, Ruslan and Urtasun, Raquel and Torralba, Antonio and Fidler, Sanja}, booktitle = {The IEEE International Conference on Computer Vision (ICCV)}, month = {December}, year = {2015} }
AI搜集汇总
数据集介绍
main_image_url
构建方式
BookCorpus数据集的构建主要依赖于从smashwords.com网站下载的电子书。该数据集的构建者使用爬虫软件从网站中搜集免费的电子书,并将这些电子书从epub格式转换为纯文本格式。在筛选标准上,仅包含超过20,000个单词的书籍,构成了一个非概率性的便利样本。数据集的构建过程中未详细说明数据清洗的步骤,但可以看出部分文本经过了初步的清洗,去除了部分前言和后记文本。
特点
BookCorpus数据集的特点在于其包含了大量的自我出版的书籍,这些书籍涵盖了多种类型和风格。数据集中的每本书都包含了完整的文本内容,包括前言、版权声明等。此外,数据集中存在一定数量的重复书籍,以及一些书籍的副本存在轻微的差异。数据集的一个显著特征是缺乏明确的标注或目标,最初用于无监督训练,书籍的类别信息由Smashwords网站提供。
使用方法
使用BookCorpus数据集时,用户可以直接利用其中的文本数据进行各种自然语言处理任务,如语言模型训练、填空等。由于数据集没有预定义的数据划分,用户通常需要根据自己的任务需求来决定如何划分训练集。在使用时,应注意数据集中可能存在的版权问题、重复数据以及采样偏差,并根据具体任务对数据集进行适当的子集选择和预处理。
背景与挑战
背景概述
BookCorpus数据集,创建于2015年,是由Yukun Zhu和Ryan Kiros等研究人员构建的。该数据集旨在通过收集Smashwords网站上的自出版书籍,以丰富细粒度信息和高级语义信息,为视觉内容提供详尽的描述性解释。BookCorpus包含11038本书,涵盖了多种类型,如小说、科幻、文学等。这些书籍最初用于无监督训练,如语言模型训练等任务。BookCorpus的构建对于自然语言处理领域,特别是在文本生成和填空任务中,具有重要的影响力。
当前挑战
在数据集构建过程中,研究者面临了诸多挑战。首先,数据集中存在大量的重复书籍,经过筛选后确认有7185本独特的书籍。其次,由于书籍是从Smashwords网站上抓取的,因此在版权和作者同意方面存在争议。作者们并未明确同意将他们的作品用于构建数据集,这可能涉及版权侵犯的问题。此外,数据集中还存在一些噪声和冗余信息,如版权声明和前言等文本,这些都需要在后续的数据处理中进行清理。
常用场景
经典使用场景
BookCorpus数据集作为文本生成领域的经典资源,其广泛应用于自然语言处理模型的预训练,特别是在构建能够理解和生成复杂文本结构的模型方面。该数据集包含大量自出版物,涵盖了丰富的语义信息和细致的描述,使得它在训练故事生成、文本填充等任务中具有显著优势。
解决学术问题
BookCorpus解决了学术研究中对于构建具有深层次理解能力语言模型的需求。通过该数据集,研究者能够训练模型以处理复杂的语言现象,如故事情节的连贯性和角色发展的逻辑性,这对于提升自然语言处理技术的语义理解能力至关重要。
衍生相关工作
基于BookCorpus的研究衍生出了多项相关工作,包括但不限于对数据集进行清洗、标注和扩展,以及利用该数据集进行情感分析、主题建模和跨模态学习的探索。这些工作进一步拓宽了BookCorpus的应用范围,促进了多领域的研究进展。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

OMIM (Online Mendelian Inheritance in Man)

OMIM是一个包含人类基因和遗传疾病信息的在线数据库。它提供了详细的遗传疾病描述、基因定位、相关文献和临床信息。数据集内容包括疾病名称、基因名称、基因定位、遗传模式、临床特征、相关文献引用等。

www.omim.org 收录

TCIA

TCIA(The Cancer Imaging Archive)是一个公开的癌症影像数据集,包含多种癌症类型的医学影像数据,如CT、MRI、PET等。这些数据通常与临床和病理信息相结合,用于癌症研究和临床试验。

www.cancerimagingarchive.net 收录

Tropicos

Tropicos是一个全球植物名称数据库,包含超过130万种植物的名称、分类信息、分布数据、图像和参考文献。该数据库由密苏里植物园维护,旨在为植物学家、生态学家和相关领域的研究人员提供全面的植物信息。

www.tropicos.org 收录

YOLO Drone Detection Dataset

为了促进无人机检测模型的开发和评估,我们引入了一个新颖且全面的数据集,专门为训练和测试无人机检测算法而设计。该数据集来源于Kaggle上的公开数据集,包含在各种环境和摄像机视角下捕获的多样化的带注释图像。数据集包括无人机实例以及其他常见对象,以实现强大的检测和分类。

github 收录

CE-CSL

CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集,旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段,涵盖超过70种不同的复杂背景,确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向,通过收集大量真实场景下的手语视频材料,覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域,旨在提高手语识别技术在复杂环境中的准确性和效率,促进聋人与听人社区之间的无障碍沟通。

arXiv 收录