reasoning-engaging-story

Hugging Face2025-05-03 更新2025-05-04 收录

下载链接：

https://huggingface.co/datasets/rekrek/reasoning-engaging-story

下载链接

链接失效反馈

官方服务：

资源简介：

这个数据集旨在帮助推理模型从模拟思维过程中生成引人入胜的故事。它包括一个种子短故事、一个生成的普通故事、一个增强的故事、一个引人入胜的故事和一个训练对话。数据集的设计是为了帮助推理模型提高它们的故事创作能力，并贡献于文学解读。数据集包含推理痕迹，这些痕迹是在两遍操作中模拟的，可以进一步通过增加遍历来改进。它还包括了故事创作过程中的一些挑战和解决方法。

创建时间：

2025-04-29

原始信息汇总

数据集概述：Reasoning dataset for generating engaging story with simulated thought process

基本信息

许可证: Apache License 2.0
任务类别: 文本生成
语言: 英语
标签: reasoning-datasets-competition
数据集规模: <1K
配置:
- default: 包含完整特征集
- short_view: 简化特征集

数据集特征

default配置

特征:
- short_story: 短篇故事种子
- base_story_instruction_reasoning: 基础故事指令推理
- base_story_instruction_solution: 基础故事指令解决方案
- base_short_story_type: 基础短篇故事类型
- base_short_story_public: 基础短篇故事公开状态
- base_user_instruction: 基础用户指令
- user_aspect_choosen: 用户选择方面
- user_instruction_refined: 精炼用户指令
- base_story_reasoning: 基础故事推理
- base_story_solution: 基础故事解决方案
- story_instruction_normal_reasoning: 普通故事指令推理
- story_instruction_normal_solution: 普通故事指令解决方案
- story_detected_symbolism_reasoning: 故事象征主义检测推理
- story_detected_symbolism_solution: 故事象征主义检测解决方案
- story_draft_first_iteration_reasoning: 故事初稿第一版推理
- story_draft_first_iteration_solution: 故事初稿第一版解决方案
- story_draft_second_iteration_reasoning: 故事初稿第二版推理
- story_draft_second_iteration_solution: 故事初稿第二版解决方案
- story_scenes_descriptions_reasoning: 故事场景描述推理
- story_scenes_descriptions_solution: 故事场景描述解决方案
- story_characters_from_scenes_reasoning: 从场景生成角色推理
- story_characters_from_scenes_generator_solution: 从场景生成角色解决方案
- story_characters_enhanced_reasoning: 角色增强推理
- story_characters_enhanced_solution: 角色增强解决方案
- story_plots_reasoning: 故事情节推理
- story_plots_solution: 故事情节解决方案
- story_world_building_reasoning: 世界构建推理
- story_world_building_solution: 世界构建解决方案
- story_rebuild_draft_reasoning: 故事重建草稿推理
- story_rebuild_draft_solution: 故事重建草稿解决方案
- story_context_summary_reasoning: 故事上下文摘要推理
- story_context_summary_solution: 故事上下文摘要解决方案
- story_style_reasoning: 故事风格推理
- story_style_solution: 故事风格解决方案
- story_final_draft_reasoning: 故事最终草稿推理
- story_final_draft_solution: 故事最终草稿解决方案
- story_engaging_solution_chapter_1 到 story_engaging_solution_chapter_11: 各章节解决方案
- story_engaging_reasoning: 吸引人故事推理
- story_engaging_solution: 吸引人故事解决方案
- story_engaging_solution_number_of_chapters: 章节数量
- simulated_thinking_a_story_reasoning: 模拟思考故事推理
- simulated_thinking_a_story_solution: 模拟思考故事解决方案
- simulated_thinking_fix_reasoning: 模拟思考修复推理
- simulated_thinking_fix_solution: 模拟思考修复解决方案
- conversations: 对话内容
分割:
- v1: 110个示例，29,933,193字节

short_view配置

特征:
- short_story: 短篇故事种子
- base_story_instruction_solution: 基础故事指令解决方案
- story_engaging_solution: 吸引人故事解决方案
- conversations: 对话内容

目的与范围

帮助扩展推理模型创建引人入胜且连贯的故事
用于训练Deepseek R1的蒸馏版本，如LLAMA 3 70b
探索模拟思考用于模型训练的可能性
为推理模型提供更多创造力

数据集创建

种子数据: 来自NeuralNovel/Neural-Story-v1的105个短篇故事
生成过程: 17个步骤生成最终训练对话
成本: 约30美元
使用模型: DeepSeek-R1-Distill-Llama-70B和Llama-4-Maverick-17B-128E-Instruct-FP8

潜在应用

训练小型推理模型用于创意故事生成
生成更好的互动虚构冒险
用于文学解释
作为推理数据集的证明概念

限制与挑战

模型在生成超过5k单词的连贯故事方面表现不佳
需要大量人工干预来确保故事质量
章节间连贯性问题
角色和物品遗忘问题

未来改进方向

增加章节修订
增强角色背景故事
改进世界构建
增加文学审查
生成更长故事的支持

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，构建高质量的故事生成数据集对于提升模型的创造性写作能力至关重要。该数据集以NeuralNovel/Neural-Story-v1中的105篇短篇故事为种子数据，通过DeepSeek-R1-Distill-Llama-70B和Llama-4-Maverick-17B等模型进行多轮迭代生成。整个构建过程包含17个精细步骤，涵盖符号解析、场景构建、角色塑造、情节设计等关键创作环节，并保留了所有中间状态数据。为确保故事质量，采用了章节拆分处理策略，并引入上下文摘要机制来维持叙事连贯性。

特点

该数据集最显著的特点在于其完整的创作过程记录和丰富的元数据标注。不仅包含最终生成的吸引人故事（最长达8-16k tokens），还详细记录了每个创作环节的推理过程（reasoning traces）和解决方案。数据集特别注重故事元素的系统性构建，包括场景描述、角色增强、世界观设定等专业创作维度，并通过模拟思维标签（<thinking>）展现了完整的创作决策链条。这种结构为研究模型创造性推理机制提供了宝贵资源。

使用方法

该数据集主要适用于训练具有创造性写作能力的推理模型。研究人员可重点利用其分章节的故事结构训练模型的长文本生成能力，或通过分析推理轨迹优化模型的创作决策过程。使用时可提取sharegpt格式的训练对话，其中包含种子故事、用户请求、模拟思维过程和最终故事的完整链条。对于进阶应用，建议从story_final_draft_generator阶段继续开发，通过增加主题精炼、时间线管理等模块来扩展故事长度和深度。需注意遵守Apache 2.0许可要求，并在衍生作品命名时使用指定标签格式。

背景与挑战

背景概述

在人工智能与创意写作的交叉领域，reasoning-engaging-story数据集于2024年由独立研究者构建，旨在探索推理模型在长叙事文本生成中的潜力。该数据集基于Apache 2.0许可的Neural-Story-v1短篇故事库，通过DeepSeek-R1-Distill和Llama-3等大语言模型进行多轮迭代生成，重点研究模拟思维链（CoT）对故事连贯性、角色塑造和世界构建的增强作用。作为HuggingFace推理数据集竞赛的参赛作品，其创新性体现在将程序化推理技术应用于传统上依赖直觉的文学创作领域，为交互式叙事、游戏内容生成等场景提供了新的技术路径。

当前挑战

该数据集面临双重挑战：在领域层面，现有大语言模型存在长文本生成中的角色一致性维持困难、情节逻辑断裂等固有缺陷，且文学创作所需的隐喻构建和风格化表达超出当前推理模型的常规能力范围。在构建过程中，技术挑战包括多轮迭代导致的API调用成本控制难题、超过8Ktoken时的上下文丢失现象，以及模拟思维标签的解析错误等问题。此外，章节间叙事衔接的弱关联性、角色属性记忆缺失等数据质量问题，反映出当前技术对长程依赖建模的局限性，这些瓶颈制约着AI生成故事的艺术完整性和商业可用性。

常用场景

经典使用场景

在自然语言生成领域，该数据集为研究推理模型在创造性写作中的应用提供了独特范例。通过模拟思维过程的详细标注，研究者能够深入分析大型语言模型在构建连贯叙事时的认知路径，尤其关注从简短故事种子到完整章节的迭代生成机制。这种带有推理痕迹的数据结构为理解模型如何平衡情节逻辑、角色塑造与世界构建提供了透明化研究素材。

解决学术问题

该数据集有效解决了创造性AI研究中的关键瓶颈问题：一是突破了传统故事生成数据集缺乏思维过程可视化的局限，通过<thinking>标签实现推理链条的可追溯性；二是建立了量化评估模型创造力的新范式，其多层次迭代结构为衡量叙事连贯性、情感吸引力等主观指标提供了客观基准。这种将符号推理与文学创作相结合的方法，为提升语言模型的深层语义理解能力开辟了新路径。

衍生相关工作

该数据集催生了多个创新性研究方向：Nitral-AI团队据此开发了角色扮演对话增强框架，通过移植思维链标注方法提升NPC对话深度；Deepseek实验室在其基础上构建了符号主义文学分析工具，能够自动识别叙事中的隐喻模式。最显著的衍生成果是BespokeLabs推出的GRPO-Story架构，将原始数据中的多轮推理过程转化为强化学习的奖励信号。

以上内容由遇见数据集搜集并总结生成