Gutenberg Poetry Corpus

github2019-10-16 更新2024-05-31 收录

下载链接：

https://github.com/shawwn/gutenberg-poetry-corpus

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个从Project Gutenberg提取的诗歌数据集，包含约三百万行诗歌，特别适合用于创造性计算诗歌文本生成应用。

This is a poetry dataset extracted from Project Gutenberg, containing approximately three million lines of poetry, particularly suitable for creative computational poetry text generation applications.

创建时间：

2019-10-15

原始信息汇总

A Gutenberg Poetry Corpus 概述

数据集描述

名称: A Gutenberg Poetry Corpus
创建者: Allison Parrish
来源: 从Project Gutenberg提取的数百本书籍，约三百万行诗歌。
格式: 压缩的newline-delimited JSON格式。
内容: 每行诗歌由一个JSON对象表示，包含s键（诗歌内容）和gid键（来源书籍ID）。
适用场景: 创意计算文本生成。

数据集使用

数据格式: 每行诗歌为一个JSON对象，s键对应诗歌内容，gid键对应书籍ID。
使用示例: 提供了一个Quick Experiments notebook展示如何在Python中快速使用该数据集。

数据集构建

生成过程: 使用build.py脚本，筛选包含“poetry”主题的书籍，基于文本特征提取诗歌行，并排除包含冒犯性内容的行。
语言和版权: 仅包含英语公共域书籍的诗歌行。

数据集示例应用

Gutenberg Poetry Autocomplete: 用于创作诗歌的搜索引擎接口。
Articulations: 通过寻找语音相似的诗行创作的诗集。
Plot to Poem: 将Wikipedia情节摘要转换为诗句的项目。

许可证

数据: 以CC0公共域贡献。
代码: 根据MIT许可证提供。

搜集汇总

数据集介绍

构建方式

Gutenberg Poetry Corpus是由Allison Parrish创建的，该数据集通过从Project Gutenberg的数百本图书中提取大约三百万行诗歌而构建。构建过程首先筛选出书籍元数据中主题包含“poetry”的图书，然后扫描这些图书的纯文本版本，依据特定的文本特征，如行长度和首字母大写等，识别出看起来像诗歌的行。最终，通过比对一份词汇表过滤掉可能含有冒犯性内容的行，从而形成该诗歌语料库。

使用方法

用户可以通过下载提供的压缩文件来使用这个数据集。数据集以gzip压缩的newline-delimited JSON格式存储，每行包含一个JSON对象，其中`s`键代表诗歌行，`gid`键代表诗歌来源的Project Gutenberg书籍ID。用户可以通过该ID查找书籍的标题和作者。使用Python中的Quick Experiments notebook可以快速上手该数据集，无需安装额外的Python模块，使用过程简单直观。

背景与挑战

背景概述

Gutenberg Poetry Corpus是由Allison Parrish创建的诗歌语料库，汇集了来自Project Gutenberg的数百本图书中的大约三百万行诗歌。该数据集特别适用于创意计算诗歌文本生成领域。Project Gutenberg是一个提供超过60,000本免费电子书的网站，其中大部分是公共领域文学作品。Parrish的工作旨在利用这些资源，为诗歌创作和研究提供丰富的文本基础。自创建以来，该数据集已成为创意文本生成、计算风格学和文学分析等研究的重要资源。

当前挑战

该数据集在构建过程中面临的挑战主要包括：如何准确识别并提取文本中的诗歌行，以及如何过滤掉可能包含冒犯性内容的行。此外，尽管采用了最佳努力来排除不当语言，但由于数据量庞大，创建者无法亲自审查每一行，因此在公开使用时需要对内容进行二次审核。构建诗歌语料库的另一挑战是确保所包含的作品均为公共领域，且为英语创作，以适应特定的研究需求。

常用场景

经典使用场景

在自然语言处理与文学研究领域，Gutenberg Poetry Corpus数据集以其丰富的诗歌资源，成为文本生成与风格分析的经典工具。该数据集常被用于构建诗歌自动生成模型，以及进行计算诗学的探索。

解决学术问题

该数据集解决了学术研究中对于大规模诗歌文本的获取与处理难题，为研究者提供了便捷的诗文素材，有助于推动文学分析、自然语言处理和人工智能等领域的研究进展。其对于诗歌风格的量化分析、作者归属研究、文学作品的风格演变等问题的探讨，具有重要的学术价值。

实际应用

实际应用中，Gutenberg Poetry Corpus数据集被广泛用于开发诗歌创作辅助工具、构建诗歌搜索引擎，以及教育领域的文学教学与研究中。此外，创意写作和文学创作也因该数据集的辅助而得到新的灵感来源。

数据集最近研究