Hatman/PlotPalette-10K
收藏Hugging Face2024-06-13 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/Hatman/PlotPalette-10K
下载链接
链接失效反馈官方服务:
资源简介:
Plot Palette是一个精选的数据集,旨在微调大型语言模型(LLMs)在创意写作任务上的表现。数据来源于各种文学资源,并使用了Mistral 8x7B语言模型生成。数据集中包含多个字段,如id、category、question、answer等,以及三个数据分割:train、test和validation。数据的主要生成来源是mistralai/Mixtral-8x7B-Instruct-v0.1,但也使用了其他模型如CohereForAI/c4ai-command-r-plus和meta-llama/Llama-2-70b-chat-hf。
Plot Palette是一个精选的数据集,旨在微调大型语言模型(LLMs)在创意写作任务上的表现。数据来源于各种文学资源,并使用了Mistral 8x7B语言模型生成。数据集中包含多个字段,如id、category、question、answer等,以及三个数据分割:train、test和validation。数据的主要生成来源是mistralai/Mixtral-8x7B-Instruct-v0.1,但也使用了其他模型如CohereForAI/c4ai-command-r-plus和meta-llama/Llama-2-70b-chat-hf。
提供机构:
Hatman
原始信息汇总
Plot Palette 数据集概述
数据集基本信息
- 许可证: MIT
- 语言: 英语
- 名称: Plot Palette
- 大小类别: 1K<n<10K
- 创建者: Hatman
- 来源: 各种创意写作资源
数据集配置
- 配置名称: default
- 特征:
id: 字符串类型,每个提示-响应对的唯一标识符。category: 字符串类型,提示-响应对所属的类别(例如,creative_writing, generation, poem, brainstorm, question_answer)。question: 字符串类型,向语言模型提出的提示或问题。answer: 字符串类型,语言模型生成的响应。question_1: 字符串类型,模型提出的可选跟进问题。answer_1: 字符串类型,模型生成的可选跟进响应。
数据分割
- 训练集: 6068个样本,14870611字节
- 测试集: 1300个样本,3128087字节
- 验证集: 1301个样本,3064666字节
数据文件
- 训练集文件: train.csv
- 测试集文件: test.csv
- 验证集文件: val.csv
- 分隔符: "|"
数据集描述
Plot Palette 是一个为创意写作任务微调大型语言模型(LLMs)而设计的精选数据集。数据来源于各种文学资源,并使用 Mistral 8x7B 语言模型生成。
数据字段
id: 每个提示-响应对的唯一标识符。category: 提示-响应对所属的类别(例如,creative_writing, generation, poem, brainstorm, question_answer)。question: 向语言模型提出的提示或问题。answer: 语言模型生成的响应。question_1: 模型提出的可选跟进问题。answer_1: 模型生成的可选跟进响应。
数据分割
Plot Palette 包含三个分割:训练集、测试集和验证集。每个问题/答案对都是唯一的,不会在不同类别中重复。
| 数据集分割 | 样本数量 |
|---|---|
| 训练集 | 6,068 |
| 测试集 | 1,301 |
| 验证集 | 1,300 |
源数据
源数据主要由 mistralai/Mixtral-8x7B-Instruct-v0.1 生成,但在该模型不可用时,也会使用 CohereForAI/c4ai-command-r-plus 和 meta-llama/Llama-2-70b-chat-hf。
搜集汇总
数据集介绍

构建方式
在创意写作领域,数据集的构建往往依赖于对文学素材的系统性整合与生成。PlotPalette-10K数据集通过精心设计的流程,从多样化的创意写作来源中提取原始素材,并利用Mistral 8x7B语言模型进行自动化生成与扩展。构建过程中,数据被划分为训练、测试和验证三个独立子集,确保每个问题-答案对在类别间保持唯一性,避免了重复样本的出现。数据以CSV格式存储,采用特定分隔符进行字段组织,涵盖了创意写作、诗歌创作、头脑风暴等多种类别,为语言模型提供了丰富的训练基础。
特点
该数据集在创意写作任务中展现出鲜明的特色,其核心在于覆盖了多元的文学类别,包括创意写作、生成任务、诗歌、头脑风暴及问答等,各类别分布均衡,为模型提供了广泛的应用场景。每个样本均包含唯一标识符、类别标签、初始问题与答案,以及可选的后续问题与回答,形成了连贯的对话结构。数据规模适中,总计近万条样本,分为训练、测试和验证三部分,确保了模型评估的可靠性与泛化能力。这种结构化的设计使得数据集不仅适用于基础写作任务,还能支持复杂的交互式创作过程。
使用方法
在自然语言处理研究中,PlotPalette-10K数据集主要用于微调大型语言模型以提升创意写作性能。用户可通过HuggingFace平台直接加载数据集,利用其预定义的训练、测试和验证分割进行模型训练与评估。数据字段清晰,包括问题、答案及可选后续对话,便于构建序列到序列或对话生成任务。实践中,研究者可结合开源脚本对数据进行进一步处理或扩展,以适配特定写作风格或主题。该数据集的中立性与客观性确保了其在学术实验中的可靠性,为推进创意人工智能的发展提供了实用工具。
背景与挑战
背景概述
在人工智能与自然语言处理领域,创意写作任务的自动化生成一直是研究的前沿课题。PlotPalette-10K数据集由Hatman于近期创建,旨在为大语言模型在创意写作任务上的微调提供专门资源。该数据集从多样化的文学来源中汲取灵感,并借助Mistral 8x7B语言模型生成,涵盖了创意写作、诗歌创作、头脑风暴及问答等多种类别。其核心研究问题聚焦于提升大语言模型在开放式、创造性文本生成任务中的表现力与连贯性,为文学计算与生成式人工智能的交叉研究提供了宝贵的实验数据,推动了相关领域在艺术性文本生成方面的发展。
当前挑战
PlotPalette-10K数据集所应对的领域挑战在于创意写作本身的高度主观性与复杂性,这要求模型不仅需理解语言结构,还需捕捉情感、风格及叙事逻辑等抽象元素。在构建过程中,挑战主要源于确保生成内容的质量与多样性:一方面,需要从广泛的文学来源中筛选和整合有效素材,以避免数据偏差;另一方面,依赖Mistral 8x7B模型生成数据时,需平衡创造性输出与逻辑一致性,防止生成内容陷入重复或脱离主题。这些挑战共同指向了高质量创意数据集的稀缺性,以及自动化生成技术在艺术性任务中的局限性。
常用场景
经典使用场景
在创意写作与自然语言生成领域,PlotPalette-10K数据集为大型语言模型的微调提供了专门支持。其核心应用场景在于训练模型生成富有想象力的叙事内容,涵盖诗歌创作、头脑风暴、问答对话等多种文学形式。通过精心设计的提示-回答对,该数据集能够引导模型学习创造性文本的结构与风格,从而提升其在开放式写作任务中的表现力与连贯性。
衍生相关工作
围绕该数据集,学术界已衍生出多项探索性研究,包括基于提示工程的创造性控制方法、多模态叙事生成框架,以及评估生成文本文学质量的指标构建。这些工作进一步深化了对语言模型创造性潜力的理解,并促进了如故事生成、诗歌合成等细分领域的技术演进,形成了从数据到模型再到评估的完整研究链条。
数据集最近研究
最新研究方向
在创意写作与自然语言生成领域,PlotPalette-10K数据集正推动着大型语言模型在文学创作任务中的精细化调优研究。该数据集通过涵盖创意写作、诗歌生成及头脑风暴等多种类别,为模型提供了丰富的语义结构和风格化表达样本。前沿研究聚焦于利用此类数据增强模型的情节构思能力与叙事连贯性,尤其在交互式故事生成和个性化内容创作方面展现出潜力。随着人工智能在数字娱乐和教育应用中的渗透,该数据集支持的热点方向包括多轮对话驱动的动态叙事构建以及跨模态创意任务的融合,为提升生成文本的原创性和情感深度提供了关键资源,对推动人机协作创作生态的发展具有显著意义。
以上内容由遇见数据集搜集并总结生成



