Homemade BookCorpus

github2024-05-22 更新2024-05-31 收录

下载链接：

https://github.com/soskek/homemade_bookcorpus

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个用于无监督学习的大规模文本语料库，特别是用于句子编码器/解码器的学习。该数据集通过爬虫从smashwords.com收集数据，虽然收集的句子可能与原始BookCorpus部分不同，但数量大致相同。使用此新语料库时，请注明其为复制品。

This is a large-scale text corpus designed for unsupervised learning, particularly for the training of sentence encoders/decoders. The dataset was compiled by scraping data from smashwords.com. Although the sentences collected may differ from those in the original BookCorpus, the volume is approximately equivalent. When utilizing this new corpus, please acknowledge it as a replica.

创建时间：

2018-07-14

原始信息汇总

数据集概述

数据集名称： Homemade BookCorpus

数据来源： 原始数据来自smashwords.com，通过爬虫技术收集。

数据集特点：

数据集主要用于无监督学习中的句子编码/解码任务。
收集的句子可能与原始BookCorpus有部分差异，但数量大致相同。
使用新数据集时，需明确指出其为复制品。

数据集使用方法

准备URL列表： 使用提供的url_list.jsonl文件，该文件包含于2019年1月19-20日收集的书籍URL。
下载文件： 使用download_files.py脚本下载书籍文件，优先下载txt格式，其次尝试从epub格式提取文本。
后处理： 使用make_sentlines.py脚本将下载的文本转换为每行一个句子的格式。可选地，使用tokenize_sentlines.py脚本结合Microsoft的BlingFire进行句子分词。

注意事项

使用此代码需遵守smashwords.com的条款，并注意版权和相关法律。
预期会有一些错误，如文件下载失败等，但成功率应远高于失败率。

技术要求

编程语言： Python3
依赖库： beautifulsoup4, progressbar2, blingfire, html2text, lxml

引用信息

若使用此代码，请引用：

@misc{soskkobayashi2018bookcorpus, author = {Sosuke Kobayashi}, title = {Homemade BookCorpus}, howpublished = {url{https://github.com/soskek/bookcorpus}}, year = {2018} }

同时，引用原始BookCorpus的相关论文：

@InProceedings{Zhu_2015_ICCV, title = {Aligning Books and Movies: Towards Story-Like Visual Explanations by Watching Movies and Reading Books}, author = {Zhu, Yukun and Kiros, Ryan and Zemel, Rich and Salakhutdinov, Ruslan and Urtasun, Raquel and Torralba, Antonio and Fidler, Sanja}, booktitle = {The IEEE International Conference on Computer Vision (ICCV)}, month = {December}, year = {2015} }

@article{kiros2015skip, title={Skip-Thought Vectors}, author={Kiros, Ryan and Zhu, Yukun and Salakhutdinov, Ruslan and Zemel, Richard S and Torralba, Antonio and Urtasun, Raquel and Fidler, Sanja}, journal={arXiv preprint arXiv:1506.06726}, year={2015} }

搜集汇总

数据集介绍

构建方式

Homemade BookCorpus数据集的构建基于对smashwords.com网站的爬虫技术，旨在从该网站收集大量免费书籍文本。通过使用Python脚本，数据集首先从网站获取书籍的URL列表，随后下载这些书籍的文本文件。若书籍以epub格式提供，脚本会尝试从中提取文本。为确保数据质量，脚本还包含一个过滤机制，用于剔除文本长度与官方统计显著不符的文件。最终，所有文本被整合为单个文件，每行代表一个句子，便于后续的自然语言处理任务。

特点

Homemade BookCorpus数据集的主要特点在于其大规模和多样性。该数据集包含了从smashwords.com网站收集的大量书籍文本，涵盖了多种题材和风格，为自然语言处理研究提供了丰富的语料资源。此外，数据集的构建过程中采用了严格的过滤机制，确保了文本的质量和一致性。尽管与原始BookCorpus相比，部分文本可能存在差异，但总体规模和质量保持了较高水平。

使用方法

使用Homemade BookCorpus数据集时，用户首先需要克隆或下载该数据集的GitHub仓库。随后，通过运行提供的Python脚本，用户可以下载和处理书籍文本。数据集的文本文件可以用于各种自然语言处理任务，如文本分类、语言模型训练等。为方便使用，数据集还提供了预处理脚本，用户可以根据需要对文本进行进一步的清洗和格式化。在使用过程中，用户需注意遵守相关版权和法律规定。

背景与挑战

背景概述

Homemade BookCorpus数据集是由Sosuke Kobayashi在2018年创建的，旨在复现原始的BookCorpus，这是一个广泛用于无监督句子编码器/解码器学习的大型文本语料库。原始的BookCorpus由Yukun Zhu等人于2015年提出，其核心研究问题是通过对书籍和电影的对比分析，实现故事性视觉解释。Homemade BookCorpus的创建不仅是对原始数据集的补充，也是对当前自然语言处理领域中无监督学习方法的进一步探索。该数据集的构建基于从smashwords.com收集的数据，旨在提供一个更为全面和多样化的文本资源，以支持更广泛的研究和应用。

当前挑战

Homemade BookCorpus数据集在构建过程中面临多个挑战。首先，从smashwords.com抓取数据的过程复杂且易受网站变化影响，这增加了数据收集的不确定性。其次，数据集的复现需要处理多种文件格式，如txt和epub，这要求高效的文本提取和处理技术。此外，确保数据集的质量和一致性也是一个重要挑战，特别是在处理不同来源和格式的文本时。最后，数据集的使用需遵守相关版权和法律要求，这为数据的分发和使用带来了额外的复杂性。

常用场景

经典使用场景

在自然语言处理领域，Homemade BookCorpus数据集的经典使用场景主要集中在无监督学习任务中，特别是句子编码器和解码器的训练。通过提供大量未标注的文本数据，该数据集使得研究者能够训练出高效的句子表示模型，从而在文本分类、情感分析和机器翻译等任务中取得显著效果。

解决学术问题

Homemade BookCorpus数据集解决了自然语言处理领域中大规模无标注文本数据的获取难题。其丰富的文本内容和多样化的语言结构为研究者提供了宝贵的资源，有助于推动句子表示学习和无监督预训练技术的发展，进而提升各种下游任务的性能。

衍生相关工作

基于Homemade BookCorpus数据集，研究者们开展了多项经典工作，如Skip-Thought Vectors和Aligning Books and Movies等。这些工作不仅在学术界产生了深远影响，还为后续的预训练语言模型研究奠定了基础，推动了自然语言处理技术的快速发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集