Gutenberg Poetry Corpus
收藏github2019-10-16 更新2024-05-31 收录
下载链接:
https://github.com/shawwn/gutenberg-poetry-corpus
下载链接
链接失效反馈官方服务:
资源简介:
这是一个从Project Gutenberg提取的诗歌数据集,包含约三百万行诗歌,特别适合用于创造性计算诗歌文本生成应用。
This is a poetry dataset extracted from Project Gutenberg, containing approximately three million lines of poetry, particularly suitable for creative computational poetry text generation applications.
创建时间:
2019-10-15
原始信息汇总
A Gutenberg Poetry Corpus 概述
数据集描述
- 名称: A Gutenberg Poetry Corpus
- 创建者: Allison Parrish
- 来源: 从Project Gutenberg提取的数百本书籍,约三百万行诗歌。
- 格式: 压缩的newline-delimited JSON格式。
- 内容: 每行诗歌由一个JSON对象表示,包含
s键(诗歌内容)和gid键(来源书籍ID)。 - 适用场景: 创意计算文本生成。
数据集使用
- 数据格式: 每行诗歌为一个JSON对象,
s键对应诗歌内容,gid键对应书籍ID。 - 使用示例: 提供了一个Quick Experiments notebook展示如何在Python中快速使用该数据集。
数据集构建
- 生成过程: 使用
build.py脚本,筛选包含“poetry”主题的书籍,基于文本特征提取诗歌行,并排除包含冒犯性内容的行。 - 语言和版权: 仅包含英语公共域书籍的诗歌行。
数据集示例应用
- Gutenberg Poetry Autocomplete: 用于创作诗歌的搜索引擎接口。
- Articulations: 通过寻找语音相似的诗行创作的诗集。
- Plot to Poem: 将Wikipedia情节摘要转换为诗句的项目。
许可证
- 数据: 以CC0公共域贡献。
- 代码: 根据MIT许可证提供。
搜集汇总
数据集介绍

构建方式
Gutenberg Poetry Corpus是由Allison Parrish创建的,该数据集通过从Project Gutenberg的数百本图书中提取大约三百万行诗歌而构建。构建过程首先筛选出书籍元数据中主题包含“poetry”的图书,然后扫描这些图书的纯文本版本,依据特定的文本特征,如行长度和首字母大写等,识别出看起来像诗歌的行。最终,通过比对一份词汇表过滤掉可能含有冒犯性内容的行,从而形成该诗歌语料库。
使用方法
用户可以通过下载提供的压缩文件来使用这个数据集。数据集以gzip压缩的newline-delimited JSON格式存储,每行包含一个JSON对象,其中`s`键代表诗歌行,`gid`键代表诗歌来源的Project Gutenberg书籍ID。用户可以通过该ID查找书籍的标题和作者。使用Python中的Quick Experiments notebook可以快速上手该数据集,无需安装额外的Python模块,使用过程简单直观。
背景与挑战
背景概述
Gutenberg Poetry Corpus是由Allison Parrish创建的诗歌语料库,汇集了来自Project Gutenberg的数百本图书中的大约三百万行诗歌。该数据集特别适用于创意计算诗歌文本生成领域。Project Gutenberg是一个提供超过60,000本免费电子书的网站,其中大部分是公共领域文学作品。Parrish的工作旨在利用这些资源,为诗歌创作和研究提供丰富的文本基础。自创建以来,该数据集已成为创意文本生成、计算风格学和文学分析等研究的重要资源。
当前挑战
该数据集在构建过程中面临的挑战主要包括:如何准确识别并提取文本中的诗歌行,以及如何过滤掉可能包含冒犯性内容的行。此外,尽管采用了最佳努力来排除不当语言,但由于数据量庞大,创建者无法亲自审查每一行,因此在公开使用时需要对内容进行二次审核。构建诗歌语料库的另一挑战是确保所包含的作品均为公共领域,且为英语创作,以适应特定的研究需求。
常用场景
经典使用场景
在自然语言处理与文学研究领域,Gutenberg Poetry Corpus数据集以其丰富的诗歌资源,成为文本生成与风格分析的经典工具。该数据集常被用于构建诗歌自动生成模型,以及进行计算诗学的探索。
解决学术问题
该数据集解决了学术研究中对于大规模诗歌文本的获取与处理难题,为研究者提供了便捷的诗文素材,有助于推动文学分析、自然语言处理和人工智能等领域的研究进展。其对于诗歌风格的量化分析、作者归属研究、文学作品的风格演变等问题的探讨,具有重要的学术价值。
实际应用
实际应用中,Gutenberg Poetry Corpus数据集被广泛用于开发诗歌创作辅助工具、构建诗歌搜索引擎,以及教育领域的文学教学与研究中。此外,创意写作和文学创作也因该数据集的辅助而得到新的灵感来源。
数据集最近研究
最新研究方向
在自然语言处理与文学创作交叉领域,Gutenberg Poetry Corpus数据集的构建与应用正推动着文本生成与风格模拟研究的发展。该数据集以其庞大的诗歌行数和源自公版领域的英语诗歌书籍,为研究者提供了丰富的文本资源,以探索诗歌的语言特征和创作模式。近期研究方向集中于利用该数据集进行深度学习模型的训练,旨在实现自动诗歌生成,同时保持原作的风格与韵味。此外,也有学者通过此数据集研究不同历史时期诗歌风格的变化,以及诗歌语言在文化演变中的角色,进而揭示文学作品的深层文化意义与历史价值。
以上内容由遇见数据集搜集并总结生成



