BookCorpus

github2024-05-22 更新2024-05-31 收录

下载链接：

https://github.com/soskek/bookcorpus

下载链接

链接失效反馈

官方服务：

资源简介：

BookCorpus是一个流行的大型文本语料库，特别适用于无监督学习的句子编码器/解码器。然而，BookCorpus不再被分发。

BookCorpus is a widely recognized large-scale text corpus, particularly suitable for unsupervised learning in sentence encoders/decoders. However, BookCorpus is no longer distributed.

创建时间：

2018-07-14

原始信息汇总

数据集概述

数据集名称： Homemade BookCorpus

数据来源： 该数据集通过爬虫从smashwords.com收集数据，这是原始BookCorpus的来源。

数据内容： 收集的句子可能与原始数据集部分不同，但数量大致相同或更多。使用新数据集时，应明确指出其为复制品。

数据集使用方法

准备URL列表： 使用提供的url_list.jsonl文件，该文件包含了2019年1月19-20日收集的书籍URL列表。
下载文件： 使用download_files.py脚本下载书籍文件。优先下载txt格式，否则尝试从epub格式提取文本。使用--trash-bad-count参数过滤掉字数与官方统计差异较大的epub文件。
后处理： 使用make_sentlines.py脚本将下载的文本文件转换为每行一个句子的格式。若需进一步使用Microsoft的BlingFire进行分词，可运行tokenize_sentlines.py脚本。

注意事项

使用此代码时，请遵守smashwords.com的条款，并注意版权和相关法律。
预期会有一些错误，如Failed: epub and txt，但成功下载的文件数量远多于失败数量。

技术要求

推荐使用Python3
需要安装beautifulsoup4, progressbar2, blingfire, html2text, lxml等库。

引用信息

若使用此代码，请引用：

@misc{soskkobayashi2018bookcorpus, author = {Sosuke Kobayashi}, title = {Homemade BookCorpus}, howpublished = {url{https://github.com/soskek/bookcorpus}}, year = {2018} }

搜集汇总

数据集介绍

构建方式

BookCorpus数据集的构建基于从smashwords.com网站上抓取的免费书籍文本。通过使用自定义的爬虫脚本，从该网站收集书籍的URL，并下载相应的txt或epub文件。下载过程中，优先选择txt格式，若不可用则尝试从epub文件中提取文本。此外，通过设置参数过滤掉文本长度与官方统计差异较大的文件，以确保数据质量。最终，所有文本被整合成一个包含句子级信息的单一文件，便于后续处理和分析。

特点

BookCorpus数据集以其大规模和多样性著称，特别适用于无监督学习中的句子编码器和解码器训练。该数据集包含了大量的小说文本，涵盖了丰富的语言现象和上下文信息。尽管原始数据集已不再分发，但通过本项目复制的版本在句子和词汇量上保持了相当的规模和质量。此外，数据集的构建过程中采用了严格的过滤机制，确保了文本的准确性和一致性。

使用方法

使用BookCorpus数据集时，用户首先需要准备书籍的URL列表，或直接使用项目提供的预先收集的url_list.jsonl文件。随后，通过运行download_files.py脚本下载书籍文本，并选择性地进行后处理，如将文本转换为句子级格式或进行分词处理。最终，用户可以将处理后的数据用于各种自然语言处理任务，如句子嵌入、文本生成等。在使用过程中，请确保遵守相关版权和法律条款。

背景与挑战

背景概述

BookCorpus数据集，由Yukun Zhu、Ryan Kiros及其合作者在2015年创建，是一个广泛用于无监督句子编码器/解码器学习的大型文本语料库。该数据集的核心研究问题是如何通过阅读书籍和观看电影来实现故事性的视觉解释，从而推动了自然语言处理和计算机视觉领域的交叉研究。BookCorpus的创建不仅为后续的Skip-Thought Vectors等研究提供了基础，还在很大程度上影响了无监督学习和文本表示技术的发展。

当前挑战

BookCorpus数据集在构建过程中面临多个挑战。首先，数据抓取的难度较大，尤其是从原始网站smashwords.com获取数据时，可能会遇到网站结构变化等问题。其次，数据集的复制品存在质量不一的问题，如Igor Brigadir的数据集中的书籍被拼接在一起，缺乏细节信息。此外，数据集的版权和法律问题也是一个重要挑战，使用者需严格遵守相关法律法规。最后，数据集的更新和维护也是一个持续的挑战，确保数据集的时效性和准确性对于后续研究至关重要。

常用场景

经典使用场景

BookCorpus数据集在自然语言处理领域中被广泛应用于无监督学习任务，特别是句子编码器和解码器的训练。其丰富的文本内容和多样化的句子结构使其成为训练语言模型的理想选择。通过使用BookCorpus，研究人员能够构建能够理解上下文和语义的模型，从而提升自然语言处理任务的性能。

解决学术问题

BookCorpus数据集解决了自然语言处理中缺乏大规模无监督训练数据的难题。它为研究人员提供了一个高质量的文本资源，使得无监督学习方法能够在大规模数据上进行有效训练。这不仅推动了句子嵌入技术的发展，还为后续的文本生成、机器翻译和问答系统等任务提供了坚实的基础。

衍生相关工作

基于BookCorpus数据集，许多相关研究工作得以展开。例如，Skip-Thought Vectors通过该数据集训练出能够捕捉句子间语义关系的向量表示。此外，BERT模型在预训练阶段也使用了类似的数据集，进一步推动了自然语言处理技术的发展。这些衍生工作不仅丰富了数据集的应用场景，也提升了自然语言处理的整体水平。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集