novel-first-lines-dataset

github2024-03-06 更新2024-05-31 收录

下载链接：

https://github.com/janelleshane/novel-first-lines-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个众包数据集，包含了小说开头的句子。数据集由多年NaNoGenMo项目生成，并结合了2019年11月的GPT-2结果。数据集包含11,135条记录，其中一些包含作者和书名信息。数据集中的句子来自已出版的书籍、正在编写的稿件以及短篇故事。大多数记录是英文的，作者和书名的格式不统一，也没有纠正拼写错误。

This is a crowdsourced dataset containing the opening sentences of novels. The dataset was generated over several years by the NaNoGenMo project and incorporates results from GPT-2 as of November 2019. It comprises 11,135 entries, some of which include author and title information. The sentences in the dataset are sourced from published books, manuscripts in progress, and short stories. The majority of the records are in English, with inconsistent formatting of author and title information and no correction of spelling errors.

创建时间：

2017-12-01

原始信息汇总

数据集概述

数据集名称

novel-first-lines-dataset

数据集描述

Crowdsourced dataset of the first sentences of novels
Result of a multiyear NaNoGenMo project to generate the first line of a novel, updated with GPT-2 results from November 2019

数据集来源

Crowdsourced from a Google Form since the first week of November 2017
As of 28 November 2017, has 11,135 submissions (not all unique)

数据集内容

11,135 entries, some with authors and titles included
Some entries are from existing books, in-progress manuscripts, or short stories
Names of authors and titles are not standardized, nor are typos corrected
Almost all entries are in English

数据集使用的技术

2017: Syll-rnn
2019: GPT-2 (355M size)

数据集输出文件

2017: output_checkpoint10000_temp0p6.txt
2019: iteration150_temperature0p8_ancient.txt, iteration150_temperature0p8_ponies.txt, iteration150_temperature0p8_potter.txt, iteration150_temperature0p8_victorian.txt

数据集示例输出

2017 Syll-rnn examples
- Tacosset the comlowing with the first thing I have been required in the world.
- Nothing of his brother, the path in the year of the pink world.
2019 GPT-2 examples
- There was once a man who lived for a very long time; perhaps three thousand years, or perhaps a thousand million years, maybe a trillion or so, depending on how the scientists look at it.
- I was playing with my dog, Mark the brown Labrador, and I had forgotten that I was also playing with a dead man.

数据集更新策略

Form is still open for submissions
Repository may be updated if the dataset size grows significantly

搜集汇总

数据集介绍

构建方式

novel-first-lines-dataset 数据集的构建源于一个多年度 NaNoGenMo 项目，旨在生成小说的首句。该项目最初于2017年11月启动，通过众包方式收集了大量小说的首句数据。数据来源包括现有书籍、进行中的手稿以及短篇小说，部分条目还包含了作者和书名信息。尽管数据集中存在一些重复和不规范的条目，但整体上反映了多样化的文学创作风格。2019年，该数据集进一步通过 GPT-2 模型进行了扩展和优化，生成了更具连贯性和主题性的文本。

特点

该数据集包含了11,135条小说首句，涵盖了从经典文学作品到未完成手稿的广泛内容。数据集的显著特点在于其多样性和非标准化，作者和书名信息未经过统一处理，且保留了原始文本中的拼写错误。几乎所有条目均为英文，反映了英语文学创作的丰富性。此外，数据集还包含了通过 GPT-2 模型生成的文本，这些文本在保持主题连贯性的同时，展示了神经网络在文学创作中的潜力。

使用方法

该数据集适用于自然语言处理和文学创作领域的研究与应用。研究者可以利用该数据集训练和评估文本生成模型，探索小说首句的生成规律。通过 GPT-2 模型生成的文本，还可以用于研究神经网络在长文本生成中的表现。此外，数据集中的多样化内容为文学分析提供了丰富的素材，有助于深入理解不同文学风格和创作手法。用户可以通过访问 GitHub 仓库获取数据集，并根据需要对其进行进一步处理和分析。

背景与挑战

背景概述

novel-first-lines-dataset 是一个专注于小说开篇句子的众包数据集，诞生于2017年11月的NaNoGenMo项目。该项目由多位研究人员和机构共同推动，旨在通过生成小说的第一句话来探索自然语言生成技术的潜力。数据集的核心研究问题是如何通过机器学习模型生成具有文学价值的开篇句子，从而为小说创作提供灵感。该数据集的影响力主要体现在其对自然语言生成领域的贡献，尤其是在使用GPT-2等先进模型进行文本生成时，展示了从简单句子到复杂段落的生成能力。

当前挑战

该数据集在解决小说开篇句子生成问题时面临多重挑战。首先，小说开篇句子的文学性和创意性要求极高，模型需要生成既符合语法规则又具有吸引力的句子，这对生成模型的语义理解和创造力提出了严峻考验。其次，数据集的构建过程中，由于众包数据的多样性和不一致性，导致数据清洗和标准化工作异常复杂。此外，数据来源的格式不一致（如Project Gutenberg）也增加了数据采集和处理的难度。最后，尽管GPT-2等模型在生成连贯文本方面表现出色，但其生成的句子仍可能偏离主题或缺乏逻辑性，这进一步凸显了该领域的技术挑战。

常用场景

经典使用场景

在自然语言处理和文学创作领域，novel-first-lines-dataset 数据集被广泛用于训练生成模型，以模拟小说开头的创作风格。通过该数据集，研究人员能够探索不同文学风格的开篇句，进而生成具有文学价值的文本。这一应用不仅推动了生成式模型在文学创作中的发展，还为自动写作工具提供了丰富的训练素材。

实际应用

在实际应用中，novel-first-lines-dataset 数据集被用于开发自动写作工具和文学创作辅助系统。例如，作家和内容创作者可以利用基于该数据集训练的模型生成灵感或开篇句，从而提高创作效率。此外，该数据集还被用于教育领域，帮助学生理解和分析不同文学风格的开篇技巧。

衍生相关工作

基于 novel-first-lines-dataset 数据集，许多经典的研究工作得以展开。例如，研究人员利用该数据集训练了 GPT-2 模型，生成了大量具有文学风格的文本。此外，该数据集还催生了多篇关于生成式模型在文学创作中应用的学术论文，进一步推动了自然语言处理与文学研究的交叉领域发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集