literary-fiction-stories

Hugging Face2025-05-08 更新2025-05-09 收录

下载链接：

https://huggingface.co/datasets/enestaylan/literary-fiction-stories

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个包含prompt和completion两个字符串字段的数据集，用于训练和验证机器学习模型。训练集和验证集各自只有一个示例，总大小为38372字节，下载大小为29255字节。

创建时间：

2025-05-03

原始信息汇总

数据集概述

基本信息

数据集名称：literary-fiction-stories
存储位置：https://huggingface.co/datasets/enestaylan/literary-fiction-stories
下载大小：29,255字节
数据集大小：38,372字节

数据集结构

特征：
- prompt：字符串类型
- completion：字符串类型
数据划分：
- train：
  - 字节数：26,884
  - 样本数：1
- validation：
  - 字节数：11,488
  - 样本数：1

配置文件

配置名称：default
数据文件路径：
- train：data/train-*
- validation：data/validation-*

搜集汇总

数据集介绍

构建方式

在文学创作领域，literary-fiction-stories数据集通过精心采集与整理，构建了一套包含prompt-completion对的结构化文本资源。该数据集采用经典的双分支架构，训练集与验证集分别包含26,884字节和11,488字节的文本数据，每个分支各含1个完整样本。数据采集过程注重文学性与叙事完整性的平衡，原始文本经过标准化清洗后，以字符串格式存储于两个独立的分割单元中，为后续模型训练提供了清晰的文本边界。

特点

该数据集最显著的特征在于其纯粹的文学虚构属性，prompt字段作为创作引子，completion字段则呈现完整的叙事发展，二者构成有机的创作闭环。文本内容展现出典型的文学虚构特质，包含丰富的叙事元素和艺术表达。数据规模虽精简，但29.3KB的下载体积和38.4KB的存储需求使其成为轻量级文学生成任务的理想选择，特别适合探索小样本学习在创意写作领域的应用潜力。

使用方法

使用者可通过标准数据加载接口直接访问训练集和验证集，两个分割单元分别对应data/train-*和data/validation-*路径。建议将prompt字段作为生成模型的输入条件，completion字段则作为监督学习的训练目标。鉴于数据集的精简特性，推荐采用迁移学习或微调策略，将预训练语言模型的知识迁移至文学创作领域。验证集可用于评估模型在保持文学风格一致性和叙事连贯性方面的表现。

背景与挑战

背景概述

literary-fiction-stories数据集聚焦于文学创作与叙事生成领域，旨在为自然语言处理技术提供高质量的虚构故事文本资源。该数据集由匿名研究团队构建，收录了精心设计的提示词（prompt）与对应故事续写（completion）的配对样本，反映了人工智能在创造性写作中的潜在应用价值。其构建初衷源于对叙事连贯性、风格一致性和情节合理性的研究需求，为生成模型在文学领域的微调与评估提供了重要基准。

当前挑战

该数据集面临的核心挑战体现在文本生成质量与创作逻辑两个维度。在领域问题层面，模型需克服长文本依赖关系建模的困难，确保生成内容在情节发展、人物塑造和情感表达上符合文学创作规律；在构建过程中，数据采集需平衡创意性与规范性，人工标注成本高昂且易受主观评价影响。此外，虚构故事特有的隐喻性和开放性结局特征，对评估指标的客观性提出了更高要求。

常用场景

经典使用场景

在自然语言处理领域，literary-fiction-stories数据集为研究文本生成和故事创作提供了丰富的素材。该数据集通过prompt-completion的配对形式，为研究者提供了探索创造性写作和叙事结构的实验平台。其经典使用场景包括训练和评估生成式语言模型在虚构文学创作方面的能力，特别是在连贯性、创造性和风格一致性等方面的表现。

解决学术问题

该数据集有效解决了生成式语言模型在虚构文学领域面临的若干关键问题，包括长文本连贯性维护、角色性格一致性保持以及情节逻辑合理性控制等。通过提供专业文学创作的文本范例，它为研究者提供了量化评估模型文学创作能力的基准，推动了可控文本生成技术在创造性写作领域的发展。

衍生相关工作

围绕该数据集已产生一系列重要研究成果，包括基于Transformer架构的文学风格迁移模型、叙事连贯性评估指标体系以及可控故事生成框架等。这些工作不仅拓展了生成式语言模型的应用边界，也为计算创造力这一新兴交叉学科的发展奠定了数据基础。

以上内容由遇见数据集搜集并总结生成