five

Gutenberg Poetry Corpus

收藏
github2024-05-07 更新2024-05-31 收录
下载链接:
https://github.com/aparrish/gutenberg-poetry-corpus
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个从Project Gutenberg中提取的诗歌语料库,包含约三百万行诗歌,特别适合用于创造性的计算诗歌文本生成应用。

This is a poetry corpus extracted from Project Gutenberg, containing approximately three million lines of poetry, particularly suitable for creative computational poetry text generation applications.
创建时间:
2018-08-13
原始信息汇总

A Gutenberg Poetry Corpus 概述

数据集描述

  • 名称: Gutenberg Poetry Corpus
  • 创建者: Allison Parrish
  • 内容: 约三百万行诗歌,提取自Project Gutenberg的数百本书籍。
  • 格式: 以gzip压缩的newline-delimited JSON格式提供。
  • 结构: 每行诗歌由一个JSON对象表示,包含s键(诗歌内容)和gid键(来源书籍的ID)。
  • 用途: 特别适合用于创意计算诗歌文本生成。

使用方法

  • 数据访问: 通过下载链接获取数据集。
  • 数据处理: 使用Python等编程语言直接处理JSON格式数据。
  • 示例: 提供了一个Quick Experiments notebook展示如何在Python中快速使用该数据集。

数据集构建

  • 生成过程: 使用build.py脚本,通过Gutenberg, dammit访问Project Gutenberg书籍,筛选包含poetry主题的书籍,并基于文本特征提取诗歌行。
  • 过滤机制: 使用wordfilter排除可能包含冒犯性内容的行。

注意事项

  • 内容审核: 数据集未经过每行诗歌的个人审核,使用时需自行确保内容适宜。
  • 版权状态: 数据集仅包含在美国属于公共领域的英文书籍中的诗歌行。

许可证

  • 数据: 以CC0公共领域贡献许可证发布。
  • 代码: 根据MIT许可证发布。
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集通过使用`build.py`脚本构建,该脚本利用[Gutenberg, dammit](https://github.com/aparrish/gutenberg-dammit/)工具从Project Gutenberg中提取书籍。首先,脚本筛选出在元数据中标记为‘poetry’主题的书籍,然后根据文本长度和大小写等特征识别出诗歌行。此外,为确保内容适宜性,脚本还使用[wordfilter](https://github.com/dariusk/wordfilter)过滤掉可能包含冒犯性内容的行。最终,数据集仅包含Project Gutenberg元数据标识为英语且在美国属于公共领域的诗歌行。
特点
Gutenberg Poetry Corpus的一个显著特点是其规模庞大,包含了约三百万行诗歌,这些诗歌来自数百本Project Gutenberg的书籍。数据集以newline-delimited JSON格式提供,每行诗歌对应一个JSON对象,包含诗歌文本和来源书籍的Gutenberg ID。此外,数据集特别适合于创意计算诗歌文本生成应用,且经过筛选确保内容适宜性。
使用方法
数据集以gzip压缩的newline-delimited JSON格式提供,每行诗歌对应一个JSON对象,包含诗歌文本和来源书籍的Gutenberg ID。用户可以通过Python快速上手,使用提供的[Quick Experiments notebook](quick-experiments.ipynb)进行实验。此外,用户可以利用Gutenberg ID查找书籍的标题和作者,或使用计算机可读的Project Gutenberg元数据进行进一步分析。
背景与挑战
背景概述
Gutenberg Poetry Corpus是由Allison Parrish创建的一个大型诗歌语料库,包含了从Project Gutenberg中提取的大约三百万行诗歌。该数据集的构建旨在支持创意计算诗歌文本生成的研究与应用。通过从数百本Project Gutenberg的书籍中提取诗歌文本,该语料库不仅为自然语言处理领域提供了丰富的资源,还为诗歌生成、风格分析等研究提供了基础。其创建时间可追溯至2018年,主要研究人员Allison Parrish在计算创意领域具有广泛的影响力,该数据集的发布进一步推动了诗歌与计算技术的交叉研究。
当前挑战
Gutenberg Poetry Corpus在构建过程中面临了多个挑战。首先,从Project Gutenberg的众多书籍中筛选出符合诗歌特征的文本是一项复杂任务,需依赖特定的文本特征(如长度和大小写)进行识别。其次,排除可能包含冒犯性内容的诗歌行也是一个重要挑战,尽管使用了自动过滤工具,但仍需人工审查以确保内容的适宜性。此外,该数据集的使用还面临语言多样性和文化背景差异的挑战,尤其是在处理非英语诗歌时,可能需要进一步的本地化处理和语言模型优化。
常用场景
经典使用场景
Gutenberg Poetry Corpus 的经典使用场景主要集中在计算创意诗歌生成领域。该数据集包含了从Project Gutenberg中提取的大约三百万行诗歌,适用于构建和训练诗歌生成模型。研究者可以利用这些数据进行自然语言处理实验,探索如何通过算法生成具有文学价值的诗歌文本。此外,该数据集还可用于研究诗歌的结构、韵律和风格,为诗歌创作提供新的计算方法。
解决学术问题
Gutenberg Poetry Corpus 解决了自然语言处理领域中诗歌生成和分析的学术问题。通过提供大规模的诗歌文本数据,该数据集为研究者提供了丰富的语料库,用于训练和验证诗歌生成模型、风格迁移算法以及诗歌情感分析等任务。这不仅推动了计算创意写作的发展,还为文学研究提供了新的量化工具,帮助学者更好地理解诗歌的结构和美学特征。
衍生相关工作
Gutenberg Poetry Corpus 衍生了多项经典工作,包括诗歌自动补全系统、诗歌风格迁移研究以及计算创意写作项目。例如,Allison Parrish 开发的 Gutenberg Poetry Autocomplete 系统利用该数据集生成了大量诗歌,并成功发表在文学期刊中。此外,Lynn Cherny 使用该数据集进行了计算机生成诗歌的风格分析,进一步推动了计算创意写作的研究。这些工作不仅展示了数据集的潜力,还为诗歌生成和分析领域提供了新的研究方向。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作