Hatman/PlotPalette-10K

Name: Hatman/PlotPalette-10K
Creator: Hatman
Published: 2024-06-13 15:40:51
License: 暂无描述

Hugging Face2024-06-13 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/Hatman/PlotPalette-10K

下载链接

链接失效反馈

官方服务：

资源简介：

Plot Palette是一个精选的数据集，旨在微调大型语言模型（LLMs）在创意写作任务上的表现。数据来源于各种文学资源，并使用了Mistral 8x7B语言模型生成。数据集中包含多个字段，如id、category、question、answer等，以及三个数据分割：train、test和validation。数据的主要生成来源是mistralai/Mixtral-8x7B-Instruct-v0.1，但也使用了其他模型如CohereForAI/c4ai-command-r-plus和meta-llama/Llama-2-70b-chat-hf。

提供机构：

Hatman

原始信息汇总

Plot Palette 数据集概述

数据集基本信息

许可证: MIT
语言: 英语
名称: Plot Palette
大小类别: 1K<n<10K
创建者: Hatman
来源: 各种创意写作资源

数据集配置

配置名称: default
特征:
- id: 字符串类型，每个提示-响应对的唯一标识符。
- category: 字符串类型，提示-响应对所属的类别（例如，creative_writing, generation, poem, brainstorm, question_answer）。
- question: 字符串类型，向语言模型提出的提示或问题。
- answer: 字符串类型，语言模型生成的响应。
- question_1: 字符串类型，模型提出的可选跟进问题。
- answer_1: 字符串类型，模型生成的可选跟进响应。

数据分割

训练集: 6068个样本，14870611字节
测试集: 1300个样本，3128087字节
验证集: 1301个样本，3064666字节

数据文件

训练集文件: train.csv
测试集文件: test.csv
验证集文件: val.csv
分隔符: "|"

数据集描述

Plot Palette 是一个为创意写作任务微调大型语言模型（LLMs）而设计的精选数据集。数据来源于各种文学资源，并使用 Mistral 8x7B 语言模型生成。

数据字段

id: 每个提示-响应对的唯一标识符。
category: 提示-响应对所属的类别（例如，creative_writing, generation, poem, brainstorm, question_answer）。
question: 向语言模型提出的提示或问题。
answer: 语言模型生成的响应。
question_1: 模型提出的可选跟进问题。
answer_1: 模型生成的可选跟进响应。

数据分割

Plot Palette 包含三个分割：训练集、测试集和验证集。每个问题/答案对都是唯一的，不会在不同类别中重复。

数据集分割	样本数量
训练集	6,068
测试集	1,301
验证集	1,300

源数据

源数据主要由 mistralai/Mixtral-8x7B-Instruct-v0.1 生成，但在该模型不可用时，也会使用 CohereForAI/c4ai-command-r-plus 和 meta-llama/Llama-2-70b-chat-hf。

搜集汇总

数据集介绍

构建方式

在创意写作领域，数据集的构建往往依赖于对文学素材的系统性整合与生成。PlotPalette-10K数据集通过精心设计的流程，从多样化的创意写作来源中提取原始素材，并利用Mistral 8x7B语言模型进行自动化生成与扩展。构建过程中，数据被划分为训练、测试和验证三个独立子集，确保每个问题-答案对在类别间保持唯一性，避免了重复样本的出现。数据以CSV格式存储，采用特定分隔符进行字段组织，涵盖了创意写作、诗歌创作、头脑风暴等多种类别，为语言模型提供了丰富的训练基础。

特点

该数据集在创意写作任务中展现出鲜明的特色，其核心在于覆盖了多元的文学类别，包括创意写作、生成任务、诗歌、头脑风暴及问答等，各类别分布均衡，为模型提供了广泛的应用场景。每个样本均包含唯一标识符、类别标签、初始问题与答案，以及可选的后续问题与回答，形成了连贯的对话结构。数据规模适中，总计近万条样本，分为训练、测试和验证三部分，确保了模型评估的可靠性与泛化能力。这种结构化的设计使得数据集不仅适用于基础写作任务，还能支持复杂的交互式创作过程。

使用方法

在自然语言处理研究中，PlotPalette-10K数据集主要用于微调大型语言模型以提升创意写作性能。用户可通过HuggingFace平台直接加载数据集，利用其预定义的训练、测试和验证分割进行模型训练与评估。数据字段清晰，包括问题、答案及可选后续对话，便于构建序列到序列或对话生成任务。实践中，研究者可结合开源脚本对数据进行进一步处理或扩展，以适配特定写作风格或主题。该数据集的中立性与客观性确保了其在学术实验中的可靠性，为推进创意人工智能的发展提供了实用工具。

背景与挑战

背景概述

在人工智能与自然语言处理领域，创意写作任务的自动化生成一直是研究的前沿课题。PlotPalette-10K数据集由Hatman于近期创建，旨在为大语言模型在创意写作任务上的微调提供专门资源。该数据集从多样化的文学来源中汲取灵感，并借助Mistral 8x7B语言模型生成，涵盖了创意写作、诗歌创作、头脑风暴及问答等多种类别。其核心研究问题聚焦于提升大语言模型在开放式、创造性文本生成任务中的表现力与连贯性，为文学计算与生成式人工智能的交叉研究提供了宝贵的实验数据，推动了相关领域在艺术性文本生成方面的发展。

当前挑战

PlotPalette-10K数据集所应对的领域挑战在于创意写作本身的高度主观性与复杂性，这要求模型不仅需理解语言结构，还需捕捉情感、风格及叙事逻辑等抽象元素。在构建过程中，挑战主要源于确保生成内容的质量与多样性：一方面，需要从广泛的文学来源中筛选和整合有效素材，以避免数据偏差；另一方面，依赖Mistral 8x7B模型生成数据时，需平衡创造性输出与逻辑一致性，防止生成内容陷入重复或脱离主题。这些挑战共同指向了高质量创意数据集的稀缺性，以及自动化生成技术在艺术性任务中的局限性。

常用场景

经典使用场景

在创意写作与自然语言生成领域，PlotPalette-10K数据集为大型语言模型的微调提供了专门支持。其核心应用场景在于训练模型生成富有想象力的叙事内容，涵盖诗歌创作、头脑风暴、问答对话等多种文学形式。通过精心设计的提示-回答对，该数据集能够引导模型学习创造性文本的结构与风格，从而提升其在开放式写作任务中的表现力与连贯性。

衍生相关工作

围绕该数据集，学术界已衍生出多项探索性研究，包括基于提示工程的创造性控制方法、多模态叙事生成框架，以及评估生成文本文学质量的指标构建。这些工作进一步深化了对语言模型创造性潜力的理解，并促进了如故事生成、诗歌合成等细分领域的技术演进，形成了从数据到模型再到评估的完整研究链条。

数据集最近研究