stories-refinement
收藏Hugging Face2025-06-24 更新2025-06-25 收录
下载链接:
https://huggingface.co/datasets/agentlans/stories-refinement
下载链接
链接失效反馈官方服务:
资源简介:
这是一个包含合成短故事的文本数据集,由Llama3.1-LexiHermes-SuperStorm和Claude Sonnet 4模型生成。数据集分为不同的配置,包括all、zero-shot、claude-few-shot和granite,适用于文学风格转换、叙事建模和合成叙事数据生成等自然语言处理任务。
创建时间:
2025-06-13
搜集汇总
数据集介绍

构建方式
该数据集基于博客文本摘录构建,通过先进的语言模型生成合成短篇故事。原始数据来源于agentlans/lucadiliello-STORIES数据集,主要采用Llama3.1-LexiHermes-SuperStorm模型进行文本生成。数据集包含四种配置:all整合了所有配置并过滤输出字符数;zero-shot直接从原始文本生成;claude-few-shot采用10-shot学习方法;granite则使用特定模型进行无示例生成。每种配置针对不同研究需求设计了差异化的生成策略。
特点
该数据集展现了丰富的叙事风格多样性,从简洁直接的zero-shot到经过文学润色的claude-few-shot,为自然语言处理研究提供了多维度文本素材。数据集特别注重文学风格的呈现,包含心理描写、场景构建等叙事元素,同时也保留了AI生成文本的典型特征。不同配置间的风格差异明显,zero-shot更贴近原文,而few-shot版本则更具文学性和创造性,为研究者提供了对比分析的理想素材。
使用方法
该数据集适用于文学风格迁移、叙事建模等自然语言处理任务。研究者可根据不同配置选择适合的实验素材:zero-shot适合研究基础文本生成,claude-few-shot可用于few-shot学习研究,granite配置则适用于大规模文本生成实验。使用时应考虑各配置的特点,如claude-few-shot可能存在与原文偏差的情况。数据集采用jsonl.zst格式存储,可通过标准压缩工具解压后按行读取JSON对象进行处理和分析。
背景与挑战
背景概述
Stories Refinement数据集由Alan Tseng于2025年创建,旨在为自然语言处理领域的文学风格迁移和故事生成研究提供高质量的合成数据。该数据集基于agentlans/lucadiliello-STORIES中的博客文本摘录,利用Llama3.1-LexiHermes-SuperStorm和Claude Sonnet 4等先进语言模型生成短篇故事。其核心研究问题聚焦于如何通过零样本学习和少样本学习技术,将原始文本转化为具有文学性的叙事内容。该数据集通过提供多种生成配置,为零样本学习、少样本学习以及文本精炼等NLP任务设立了新的基准,对叙事建模和创意写作领域的研究具有重要推动作用。
当前挑战
该数据集面临的主要挑战体现在两个方面:在领域问题层面,如何平衡文学风格与事实准确性成为关键难题,模型生成的文本虽具有艺术性但可能偏离原始内容;此外,数据集固有的偏见限制了故事类型和视角的多样性。在构建过程中,技术挑战包括:不同生成配置导致的质量差异,零样本配置生成内容简洁但缺乏细节,少样本配置虽更精细却可能包含AI痕迹;同时,输入质量直接影响输出效果,格式不一致、文本重复以及身份混淆等问题增加了数据清洗和标准化的难度。
常用场景
经典使用场景
在自然语言生成领域,stories-refinement数据集为研究者提供了丰富的短篇故事文本资源。该数据集通过不同的配置方式,如零样本学习和少样本学习,展现了语言模型在叙事生成任务中的多样化表现。研究者可以基于这些配置,探索模型在不同学习范式下的文本生成能力,特别是在文学风格迁移和创造性写作方面的潜力。
解决学术问题
该数据集有效解决了叙事生成研究中高质量标注数据稀缺的问题。通过提供经过语言模型精炼的合成故事,研究者能够深入探究文本风格转换、叙事连贯性建模等核心学术问题。数据集中的不同配置还为零样本和少样本学习场景下的模型性能评估提供了基准,推动了小样本自然语言生成技术的发展。
衍生相关工作
基于该数据集,研究者已经开展了一系列创新性工作。在文学风格建模方面,有研究探索了如何将数据集中claude-few-shot配置的精细化叙事风格迁移到其他文本类型。在模型优化领域,granite配置生成的大量样本为数据增强技术提供了新的思路。这些衍生工作不断拓展着叙事生成技术的边界。
以上内容由遇见数据集搜集并总结生成



