Gutenberg Poetry Corpus|诗歌数据集|文本生成数据集

github2024-05-07 更新2024-05-31 收录

诗歌

文本生成

下载链接：

https://github.com/aparrish/gutenberg-poetry-corpus

下载链接

链接失效反馈

资源简介：

这是一个从Project Gutenberg中提取的诗歌语料库，包含约三百万行诗歌，特别适合用于创造性的计算诗歌文本生成应用。

This is a poetry corpus extracted from Project Gutenberg, containing approximately three million lines of poetry, particularly suitable for creative computational poetry text generation applications.

创建时间：

2018-08-13

原始信息汇总

A Gutenberg Poetry Corpus 概述

数据集描述

名称: Gutenberg Poetry Corpus
创建者: Allison Parrish
内容: 约三百万行诗歌，提取自Project Gutenberg的数百本书籍。
格式: 以gzip压缩的newline-delimited JSON格式提供。
结构: 每行诗歌由一个JSON对象表示，包含s键（诗歌内容）和gid键（来源书籍的ID）。
用途: 特别适合用于创意计算诗歌文本生成。

使用方法

数据访问: 通过下载链接获取数据集。
数据处理: 使用Python等编程语言直接处理JSON格式数据。
示例: 提供了一个Quick Experiments notebook展示如何在Python中快速使用该数据集。

数据集构建

生成过程: 使用build.py脚本，通过Gutenberg, dammit访问Project Gutenberg书籍，筛选包含poetry主题的书籍，并基于文本特征提取诗歌行。
过滤机制: 使用wordfilter排除可能包含冒犯性内容的行。

注意事项

内容审核: 数据集未经过每行诗歌的个人审核，使用时需自行确保内容适宜。
版权状态: 数据集仅包含在美国属于公共领域的英文书籍中的诗歌行。

许可证

数据: 以CC0公共领域贡献许可证发布。
代码: 根据MIT许可证发布。

AI搜集汇总

数据集介绍

构建方式

该数据集通过使用`build.py`脚本构建，该脚本利用[Gutenberg, dammit](https://github.com/aparrish/gutenberg-dammit/)工具从Project Gutenberg中提取书籍。首先，脚本筛选出在元数据中标记为‘poetry’主题的书籍，然后根据文本长度和大小写等特征识别出诗歌行。此外，为确保内容适宜性，脚本还使用[wordfilter](https://github.com/dariusk/wordfilter)过滤掉可能包含冒犯性内容的行。最终，数据集仅包含Project Gutenberg元数据标识为英语且在美国属于公共领域的诗歌行。

特点

Gutenberg Poetry Corpus的一个显著特点是其规模庞大，包含了约三百万行诗歌，这些诗歌来自数百本Project Gutenberg的书籍。数据集以newline-delimited JSON格式提供，每行诗歌对应一个JSON对象，包含诗歌文本和来源书籍的Gutenberg ID。此外，数据集特别适合于创意计算诗歌文本生成应用，且经过筛选确保内容适宜性。

使用方法

数据集以gzip压缩的newline-delimited JSON格式提供，每行诗歌对应一个JSON对象，包含诗歌文本和来源书籍的Gutenberg ID。用户可以通过Python快速上手，使用提供的[Quick Experiments notebook](quick-experiments.ipynb)进行实验。此外，用户可以利用Gutenberg ID查找书籍的标题和作者，或使用计算机可读的Project Gutenberg元数据进行进一步分析。

背景与挑战

背景概述

Gutenberg Poetry Corpus是由Allison Parrish创建的一个大型诗歌语料库，包含了从Project Gutenberg中提取的大约三百万行诗歌。该数据集的构建旨在支持创意计算诗歌文本生成的研究与应用。通过从数百本Project Gutenberg的书籍中提取诗歌文本，该语料库不仅为自然语言处理领域提供了丰富的资源，还为诗歌生成、风格分析等研究提供了基础。其创建时间可追溯至2018年，主要研究人员Allison Parrish在计算创意领域具有广泛的影响力，该数据集的发布进一步推动了诗歌与计算技术的交叉研究。

当前挑战

Gutenberg Poetry Corpus在构建过程中面临了多个挑战。首先，从Project Gutenberg的众多书籍中筛选出符合诗歌特征的文本是一项复杂任务，需依赖特定的文本特征（如长度和大小写）进行识别。其次，排除可能包含冒犯性内容的诗歌行也是一个重要挑战，尽管使用了自动过滤工具，但仍需人工审查以确保内容的适宜性。此外，该数据集的使用还面临语言多样性和文化背景差异的挑战，尤其是在处理非英语诗歌时，可能需要进一步的本地化处理和语言模型优化。

常用场景

经典使用场景

Gutenberg Poetry Corpus 的经典使用场景主要集中在计算创意诗歌生成领域。该数据集包含了从Project Gutenberg中提取的大约三百万行诗歌，适用于构建和训练诗歌生成模型。研究者可以利用这些数据进行自然语言处理实验，探索如何通过算法生成具有文学价值的诗歌文本。此外，该数据集还可用于研究诗歌的结构、韵律和风格，为诗歌创作提供新的计算方法。

解决学术问题

Gutenberg Poetry Corpus 解决了自然语言处理领域中诗歌生成和分析的学术问题。通过提供大规模的诗歌文本数据，该数据集为研究者提供了丰富的语料库，用于训练和验证诗歌生成模型、风格迁移算法以及诗歌情感分析等任务。这不仅推动了计算创意写作的发展，还为文学研究提供了新的量化工具，帮助学者更好地理解诗歌的结构和美学特征。

衍生相关工作

Gutenberg Poetry Corpus 衍生了多项经典工作，包括诗歌自动补全系统、诗歌风格迁移研究以及计算创意写作项目。例如，Allison Parrish 开发的 Gutenberg Poetry Autocomplete 系统利用该数据集生成了大量诗歌，并成功发表在文学期刊中。此外，Lynn Cherny 使用该数据集进行了计算机生成诗歌的风格分析，进一步推动了计算创意写作的研究。这些工作不仅展示了数据集的潜力，还为诗歌生成和分析领域提供了新的研究方向。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

中国气象数据

本数据集包含了中国2023年1月至11月的气象数据，包括日照时间、降雨量、温度、风速等关键数据。通过这些数据，可以深入了解气象现象对不同地区的影响，并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。

github 收录

LIDC-IDRI

LIDC-IDRI 数据集包含来自四位经验丰富的胸部放射科医师的病变注释。 LIDC-IDRI 包含来自 1010 名肺部患者的 1018 份低剂量肺部 CT。

OpenDataLab 收录

中国行政区划数据

本项目为中国行政区划数据，包括省级、地级、县级、乡级和村级五级行政区划数据。数据来源于国家统计局，存储格式为sqlite3 db文件，支持直接使用数据库连接工具打开。

github 收录

NOAA ISD

NOAA ISD（Integrated Surface Database）是由美国国家海洋和大气管理局（NOAA）维护的一个全球气象数据集。该数据集包含了从全球各地气象站收集的气象观测数据，包括温度、湿度、风速、气压等气象参数。数据涵盖了从1929年至今的长时间跨度，是气象研究和气候分析的重要数据来源。

www.ncei.noaa.gov 收录

Amazon Reviews 2023

该数据集包含用户评论，如评分、评论文本、有用投票等，以及商品元数据，如产品描述、定价、图片等。数据集比以前的版本大245.2%，包含571.54M条评论，并具有更丰富的描述性商品特征和细粒度的时间戳。

github 收录