Creative-knowledge-for-Writing

Hugging Face2026-01-19 更新2026-01-20 收录

下载链接：

https://huggingface.co/datasets/Croc-Prog-HF/Creative-knowledge-for-Writing

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集旨在加强或实现高质量小说中高参与度词汇和表达的运用。它包含长篇叙事文本摘录（最少15句，最多55句），其中包括：角色情感、突发事件、情节转折、带有情感和感觉描述的直接对话、景观人物和事物的描述、以及感觉和情感的描述。数据集包含以下列："ID"（从0开始，用于段落的唯一索引和位置标识）、"text"（模型将训练的长文本片段）、"source"（提取文本的小说/故事/短篇小说的标题）、"text_tags"（与"text"列相关的所有关键词）、"symbol_number"（对应行文本的确切字符数，包括空格、字母、标点和表情符号）。

创建时间：

2026-01-17

原始信息汇总

Creative knowledge for Writing 数据集概述

数据集基本信息

许可证：cc-by-nc-4.0
任务类别：文本分类、文本生成
语言：英语
数据规模：小于1K样本
标签：创意写作、RP、RolePlay、写作、故事、角色扮演、引用、文本、创意写作、故事、角色扮演
官方名称：Creative knowledge for Writing

数据集目的与内容

该数据集旨在加强或促进使用高质量小说中专有的、高参与度的词汇和表达。它包含长篇叙事文本摘录（最少15句，最多55句），其中涵盖：

人物情感
突发事件
情节转折
带有情感和感觉描述的直接对话
景观、人物和事物的描述
感觉和情感的描述

数据结构与字段说明

数据集包含以下列：

ID：从0开始，用于段落的唯一索引和位置标识。
text：模型将进行训练的长文本片段。
source：提取“text”中句子的原著小说/故事/中篇小说的标题。
text_tags：包含与“text”列相关的所有关键词。
symbol_number：包含对应行文本的确切字符数（包括空格、字母、标点符号和表情符号）。

版权声明

该数据集在意大利司法管辖区内编制，该地区允许出于非营利和商业目的，从受版权保护的作品中最多提取15%的文本。在使用本数据集前，请检查您所在司法管辖区的版权相关法律。

搜集汇总

数据集介绍

构建方式

在创意写作领域，高质量文学作品的表达技巧常被视为提升写作能力的关键资源。该数据集通过从多部小说、故事及中篇小说中提取文本片段构建而成，每个片段包含15至55个句子，涵盖了角色情感、突发事件、情节转折、带有情感描述的直接对话，以及对场景、人物、事物及感官体验的描绘。数据采集遵循意大利版权法规定，确保文本提取比例不超过原作的15%，且仅用于非商业目的，从而在法律框架内整合了丰富的叙事元素。

特点

该数据集专注于创意写作与角色扮演领域，其核心特点在于提供了高度结构化的文本样本。每个样本均附带详细的元数据，包括唯一标识符、来源作品标题、文本内容、关键词标签以及精确字符计数。文本标签列系统归纳了情感、对话、描述等关键主题，便于用户快速检索与特定写作技巧相关的片段。数据集规模虽小，但内容精炼，专注于高质量叙事表达，为自然语言处理模型提供了专注于文学性与情感深度的训练材料。

使用方法

背景与挑战

背景概述

在自然语言处理领域，创造性写作的自动生成一直是极具挑战性的研究方向，其核心在于如何使机器能够模仿人类作家的叙事技巧与情感表达。Creative-knowledge-for-Writing数据集应运而生，专注于从高质量文学作品中提取具有高度情感参与度的文本片段，旨在为模型训练提供富含情感、情节转折、对话及感官描述的叙事材料。该数据集由意大利的研究团队构建，遵循当地版权法规，仅提取不超过原作15%的文本内容，并严格限定于非商业用途，体现了在合法框架下推动学术进步的严谨态度。

当前挑战

该数据集致力于解决创造性文本生成中的核心难题，即如何让模型学习并复现人类叙事中的复杂情感层次与文学性表达，这要求模型不仅理解表面语义，还需捕捉文本背后的情感张力与艺术风格。在构建过程中，挑战主要源于版权限制与数据质量平衡：一方面，必须严格遵守不同司法管辖区的版权法律，确保文本提取比例合法，这限制了数据集的规模与多样性；另一方面，筛选高质量文学片段需要精细的人工标注，以准确标识情感、对话、场景等关键元素，确保训练数据的代表性与有效性，这一过程耗时且依赖领域专业知识。

常用场景

经典使用场景

在创意写作与自然语言处理领域，Creative-knowledge-for-Writing数据集为文本生成与风格建模提供了关键资源。该数据集通过收录高质量小说中的长篇叙事文本，包含情感表达、情节转折、对话描述等元素，常被用于训练模型生成富有情感深度和文学性的文本。研究者利用其丰富的文本标签和结构化信息，探索如何提升生成文本的连贯性与创造性，尤其在角色扮演和故事创作场景中，该数据集能够模拟人类作家的叙事技巧，为自动化写作系统注入艺术感染力。

解决学术问题

该数据集主要解决了创意文本生成中情感表达贫乏和叙事结构单一的问题。通过整合小说中的情感描述、突发事件和对话元素，它为研究提供了多样化的语言模式，帮助模型学习如何自然融入情感与情节变化。这推动了自然语言处理在文学性文本生成领域的进展，使得生成内容不仅语法正确，更具情感共鸣和艺术价值，为自动化写作工具的发展奠定了理论基础。

衍生相关工作

基于该数据集，衍生出多项经典研究工作，主要集中在情感增强的文本生成和文学风格迁移领域。例如，研究者开发了基于深度学习的模型，利用数据集中的情感标签和文本结构，优化生成文本的情感一致性。这些工作不仅扩展了自动化写作的应用范围，还促进了跨语言创意文本分析的发展，为后续研究提供了宝贵的基准和灵感来源。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集