Writing Prompts Short Stories Dataset

github2024-11-30 更新2024-12-01 收录

下载链接：

https://github.com/lindenmg/Writing-Prompts-Dataset-Creator

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含从Writing Prompts Subreddit获取的短篇故事，这些故事基于用户提供的简短提示编写，长度大多在100到1000字之间。数据集经过预处理，去除了不必要的内容，如非英语文本、带有强烈亵渎的内容等，并使用BERT家族模型的预训练分词器进行分词和编码，适合用于深度神经网络语言模型的训练。

This dataset comprises short stories collected from the Writing Prompts Subreddit. All stories are crafted based on concise user-provided prompts, with most entries falling between 100 and 1000 words in length. The dataset has been preprocessed to eliminate unnecessary content such as non-English text and highly profane materials. Additionally, it has been tokenized and encoded using the pre-trained tokenizers of BERT-family models, making it well-suited for training deep neural network-based language models.

创建时间：

2024-11-30

原始信息汇总

Writing Prompts Short Stories Dataset Creator

数据集概述

来源: Writing Prompts Subreddit
内容: 包含用户基于简短提示创作的短篇故事，字数通常在100到1000字之间。
用途: 适用于深度神经网络语言模型的训练或进一步处理。
数据处理:
1. 数据清洗: 标准化空白字符、特殊字符、Unicode和部分词汇。
2. 数据修剪: 移除不必要部分，如无意义文本、包含强烈亵渎语言的文本、非英语文本等。
3. 数据过滤: 基于简单统计去除异常值。
4. 数据标记化: 使用预训练的BERT系列模型（如RoBERTa）进行标记化。
5. 数据编码: 使用预训练的BERT系列模型对句子和提示进行编码。

数据准备

原始数据: 存储在data/raw目录下的Writing Prompts.db文件，需解压缩后使用。
第三方文件:
- 语言检测模型: lid.176.bin，用于检测文本语言。
- GloVe词向量文件: glove.840B.300d.zip，需解压缩后存储在data/external目录下。
- NLTK英语句子分词器: 通过nltk.download(punkt)下载。
- spaCy英语模型: 通过python -m spacy download en下载。

项目组织

文件结构:

├── config <== 配置模板和文件 ├── data <== 不同预处理阶段的数据及第三方数据 ├── LICENSE
├── models <== 存储Huggingface的预训练模型 ├── notebooks <== Jupyter Python Notebooks，用于预处理、编码和探索 ├── README.md
├── requirements.txt <== Python Pip包需求 ├── src <== 源代码（不包括Jupyter Notebooks） └── test <== 单元测试
源代码:

├── data │ ├── data_cleaning.py <== 文本、词汇和字符标准化 │ ├── data_exploration.py <== 手动探索，用于发现故事/提示预处理目标 │ ├── data_filtering.py <== 过滤不需要的文本 │ ├── data_pruning.py <== 移除文本中不需要的部分 │ ├── spacyoverlay.py <== 简化Spacy包的使用 │ └── vocab_coverage.py <== 确定词向量词汇表中覆盖的词汇数量 ├── preprocessing │ ├── dataset_creation.py <== 创建标记化数据集，将文本分割成句子 │ ├── text_encoding.py <== 使用BERT风格模型编码文本 │ └── token_encoding.py <== 使用训练好的分词器编码文本 └── utils ├── data_processing.py <== 简单的数据结构转换函数 ├── hdfs_caching.py <== 从/向HDFS保存和加载数据 ├── helpers.py <== 杂项辅助函数 ├── settings.py <== 访问config.json文件 └── sqlite.py <== Sqlite数据库键值存储功能

搜集汇总

数据集介绍

构建方式

该数据集的构建始于从Writing Prompts Subreddit通过Reddit API下载原始数据。随后，数据经过一系列精细的预处理步骤，包括标准化空白字符、特殊字符和Unicode，以及去除不必要的内容如强烈的不雅词汇和非英语文本。此外，通过简单的统计方法过滤掉异常值，并使用预训练的BERT系列模型（如RoBERTa）进行分词和编码，最终形成了一个高质量的短篇故事数据集。

特点

此数据集的显著特点在于其多样性和数量庞大，涵盖了从100到1000字的短篇故事，这些故事均基于用户提供的简短提示自由创作。数据集经过严格的预处理，确保了文本的纯净性和适用性，特别适合用于深度神经网络语言模型的训练。此外，数据集的构建方法使其能够与现代大型语言模型（LLMs）相兼容，为后续的语言生成任务提供了坚实的基础。

使用方法

使用该数据集时，首先需遵循设置说明配置Python环境，并下载必要的第三方文件。接着，通过执行Jupyter Notebooks中的预处理步骤，用户可以加载和使用预处理后的故事数据。数据集的组织结构清晰，便于用户根据需要进行数据探索和模型训练。特别地，用户可以通过SQLite数据库或HDFS加载编码后的数据，以支持各种语言模型的训练和评估任务。

背景与挑战

背景概述

写作提示短篇故事数据集（Writing Prompts Short Stories Dataset）是由2019年创建的一个预处理短篇故事数据集，旨在为语言模型的进一步训练或处理提供丰富的文本资源。该数据集源自Reddit的Writing Prompts子版块，该版块鼓励用户根据简短的提示创作100到1000字的短篇故事。这些故事的多样性和数量为深度神经网络语言模型提供了宝贵的数据源。尽管该数据集的预处理工作在现代大型语言模型（LLMs）出现之前完成，但其丰富的内容和结构化的处理方式，为后续的语言模型研究奠定了坚实的基础。

当前挑战

该数据集在构建过程中面临多项挑战。首先，原始数据从Reddit API下载，需进行文本清理，包括标准化空白、特殊字符和Unicode处理，以及去除不相关内容和非英语文本。其次，数据修剪过程中需移除包含强烈亵渎语言和无意义文本的故事，以确保数据质量。此外，数据过滤阶段通过简单统计方法去除异常值，确保数据集的统计特性合理。最后，故事和提示的标记化和编码使用预训练的BERT家族模型，这一过程需要精确的模型选择和配置，以确保编码的有效性和一致性。

常用场景

经典使用场景

在自然语言处理领域，Writing Prompts Short Stories Dataset 被广泛用于训练和评估语言模型。该数据集通过从Reddit的Writing Prompts子版块中提取的短篇故事，为研究人员提供了一个丰富的文本资源。这些故事通常基于简短的提示，涵盖了多种主题和风格，使得数据集非常适合用于训练能够生成连贯且富有创意文本的模型。通过预处理步骤，如文本清洗、修剪和过滤，数据集确保了高质量的输入，从而提高了模型的性能和可靠性。

衍生相关工作

基于 Writing Prompts Short Stories Dataset，研究人员开发了多种相关的经典工作。例如，一些研究利用该数据集训练了先进的语言模型，如GPT和BERT的变体，以提高文本生成的质量和多样性。此外，该数据集还被用于探索条件生成技术，使得模型能够根据特定提示生成定制化的文本内容。在创意写作和内容生成领域，该数据集的衍生工作为开发更智能、更具创意的文本生成系统提供了坚实的基础。

数据集最近研究