Novelist-CoT

Hugging Face2026-02-25 更新2026-02-26 收录

下载链接：

https://huggingface.co/datasets/Dxniz/Novelist-CoT

下载链接

链接失效反馈

官方服务：

资源简介：

Novelist-CoT 是一个专为监督式微调和风格化叙事生成设计的长篇创意写作数据集。该数据集整合了多种生成流程，采用统一结构，并在接受的样本中保留了规划痕迹（`<think>`）和最终散文（`<answer>`）。数据集强调长篇故事的延续与扩展、风格条件写作、叙事规划质量、多语言翻译变体以及用于下游过滤的结构化子类型标记。数据集包含 8,163 行数据，总标记数为 38,322,752（cl100k_base），平均每行 4,694.69 个标记。每行包含一个 `type` 字段，便于过滤为专门的训练切片。数据集支持多种语言翻译，包括阿拉伯语、中文、法语、德语等。所有记录采用统一的 JSON 模式，包含 `hash`、`type`、`instruction`、`input`、`output` 和 `metadata` 等字段。数据集通过合并多个版本的文件构建，并经过严格的质量筛选，确保长篇叙事的连贯性。推荐用于叙事生成的监督微调、延续和章节扩展训练、思维链感知的写作系统等应用场景。

创建时间：

2026-02-15

搜集汇总

数据集介绍

构建方式

在创意写作与叙事生成领域，Novelist-CoT数据集通过整合多代生成流水线构建而成，其核心在于将不同版本的格式化故事、扩展、翻译及章节文件统一至单一结构。该过程严格遵循质量筛选机制，包括规划痕迹与最终文本的标签完整性检查、最小答案长度阈值设定，以及重复与退化启发式规则的应用，确保数据在叙事连贯性与长文本生成质量上具有高度一致性。

特点

该数据集突出展现了长文本叙事生成的深度与多样性，不仅涵盖故事延续、风格条件写作及叙事规划等核心维度，还通过多语言翻译变体与结构化子类型标签支持下游过滤。其统一的行模式设计，融合了指令、输入与输出的训练三元组，并完整保留了思维链痕迹与最终散文内容，为模型提供了丰富的上下文学习框架。

使用方法

Novelist-CoT适用于监督微调以提升叙事生成能力，尤其擅长故事延续与章节扩展任务。用户可依据子类型标签过滤数据，针对特定写作风格或时代背景进行适应性训练，亦可利用其多语言翻译子集探索风格迁移实验。在链式思维感知的写作系统中，该数据集能够有效支持模型学习叙事规划与文本生成的协同机制。

背景与挑战

背景概述

在人工智能与自然语言处理领域，长文本生成与创意写作任务一直是研究的前沿与难点。Novelist-CoT数据集应运而生，专为监督微调与风格化叙事生成而设计，其核心在于整合多元生成流程，并保留思维链（<think>）与最终文本（<answer>）的结构化轨迹。该数据集由研究团队于近期构建，旨在推动叙事规划、多语言风格迁移及长文本续写等关键技术发展，为创意写作系统的演进提供了高质量、多模态的语料支撑，显著提升了生成模型在文学创作领域的适应性与表现力。

当前挑战

Novelist-CoT数据集所针对的创意写作领域，面临叙事连贯性、风格一致性与长文本逻辑性等多重挑战。具体而言，模型需在扩展故事情节时维持人物性格与情节发展的统一，同时适应不同时代、语言与文化背景的写作风格要求。在数据集构建过程中，研究者需克服高质量长文本样本稀缺、多语言对齐困难以及思维链标注的复杂性等障碍，并通过严格的质量过滤机制确保文本的流畅度与创造性，这为数据集的规模化与精细化带来了持续的技术压力。

常用场景

经典使用场景

在创意写作与叙事生成领域，Novelist-CoT数据集为长文本故事续写和风格化叙述提供了经典应用场景。该数据集通过整合多样化的生成管道，并保留思维链（<think>）与最终文本（<answer>）的对应结构，使得研究人员能够训练模型进行连贯的长篇故事扩展。其多语言翻译变体和结构化子类型标签进一步支持了跨语言风格迁移实验，为生成具有规划意识的叙事系统奠定了数据基础。

解决学术问题

该数据集主要解决了创意写作中长文本生成缺乏高质量监督数据的问题，以及叙事规划与最终输出间关联性建模的学术挑战。通过提供包含思维链标注的样本，Novelist-CoT促进了链式思维（Chain-of-Thought）在写作任务中的应用研究，使模型能够学习从构思到成文的推理过程。此外，其风格条件化写作和多语言变体为叙事风格适应、跨语言创作迁移等前沿课题提供了实证基础，推动了生成模型在创造性任务中的可解释性与可控性发展。

衍生相关工作

基于Novelist-CoT数据集，衍生了一系列专注于叙事生成与链式思维建模的研究工作。例如，有研究利用其思维链结构训练模型进行分层故事规划，增强了长文本生成的逻辑连贯性；另有工作结合其风格标签探索多模态叙事生成，将文本与视觉元素相结合。此外，该数据集的多语言特性也催生了跨语言创意写作系统的开发，推动了低资源语言叙事生成的进展，为创造性人工智能领域提供了重要的基准资源。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集