Creative_Writing_Multiturn

Hugging Face2024-10-09 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/Dampfinchen/Creative_Writing_Multiturn

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个由多个高质量故事写作和角色扮演数据集合并而成的集合，特别筛选了具有高回合数的样本。其目的是提高模型在长上下文中回忆和提及细节的能力，同时增强模型输出引人入胜的详细故事情节的能力，减少某些短语的使用，增加创造性，并减少枯燥的输出。数据集包括来自多个数据集的样本，如Airoboros、Gutenberg、Bluemoon等，涵盖了多种写作风格和格式。数据集还包含一个SFW（适合工作环境）变体和一个平衡版本，以适应不同的使用需求。数据集内容多样，包括小说风格的角色扮演、故事写作、简短的休闲聊天、markdown格式甚至全小写文本。

This dataset is a consolidated collection of multiple high-quality story writing and role-playing datasets, with samples specifically filtered for high turn counts. Its core objectives are to enhance the model's ability to recall and reference details within long contexts, improve its capacity to generate engaging and detailed storylines, reduce overuse of generic phrases, boost creative output, and minimize dull and monotonous model generations. The dataset includes samples sourced from multiple datasets such as Airoboros, Gutenberg, Bluemoon, among others, covering a wide spectrum of writing styles and formats. It also provides an SFW (Safe For Work) variant and a balanced version to cater to diverse usage requirements. The dataset features diverse content types, including novel-style role-play scenarios, story writing tasks, short casual conversations, Markdown-formatted texts, and even all-lowercase textual content.

创建时间：

2024-10-07

原始信息汇总

Creative_Writing_Multiturn 数据集概述

基本信息

语言: 英语 (en)
许可证: Apache 2.0
数据量: 1K<n<10K
标签:
- 文本 (text)
- 多轮对话 (multiturn)
- 创意写作 (creative writing)
- 故事 (story)
- 角色扮演 (roleplaying)
- JSON
任务类别: 文本生成 (text2text-generation)

数据集描述

目标: 提升模型在长上下文中的细节回忆能力，增强输出故事情节的吸引力和创意，减少枯燥输出，并使模型能够适应不同的写作风格。
特点:
- 包含多轮对话的高质量样本，区别于现有数据集。
- 数据集多样化，包括小说风格的角色扮演、故事写作、简短的休闲对话、Markdown格式和全小写字母。
- 包含系统提示，使模型能够适应不同用户的需求。
过滤与处理:
- 过滤了常见的GPT语言模型特征，如闪亮的眼睛、AI语言模型、脊背发凉等。
- 手动编辑和去重处理，确保数据质量。
警告: 数据集中包含非常明确的内容，无法完全过滤所有不良内容。下载者需自行承担法律责任。
变体:
- SFW（适合工作环境）变体：尽可能过滤了所有明确内容。
- 平衡版本：移除了部分明确内容，保留了高质量的NSFW样本。

数据来源

主要来源:

数据分布

对话轮数:
- 主要集中在10-30轮和80-120轮。
- 最大对话轮数为880轮。
建议训练序列长度: 至少8K，推荐16K或32K。

致谢

感谢所有贡献数据集的人员和ChatGPT提供的脚本。
特别感谢Concedo的dataset explorer工具。

搜集汇总

数据集介绍

构建方式

Creative_Writing_Multiturn数据集的构建基于多个高质量的故事写作和角色扮演数据集，经过精心筛选和整合，特别关注多轮对话的样本。数据来源包括Airoboros、Gutenberg、Bluemoon等多个知名数据集，通过脚本和手动编辑确保样本的多样性和质量。数据集还经过去重和过滤，去除了常见的GPTisms表达，以确保内容的独特性和创造性。

特点

该数据集的特点在于其多样性和高质量的多轮对话样本，涵盖了小说风格的角色扮演、故事写作、简短对话等多种形式。数据集还包含系统提示，帮助模型更好地适应不同用户的需求。此外，数据集经过严格的过滤，去除了大量重复和低质量内容，确保样本的独特性和创造性。

使用方法

Creative_Writing_Multiturn数据集适用于文本生成任务，特别是多轮对话和故事创作。建议在训练时使用32K的序列长度，以确保模型能够充分利用数据集中的长上下文信息。数据集提供了SFW和Balanced两个版本，用户可以根据需求选择合适的版本进行训练。对于VRAM受限的用户，还提供了适用于8K上下文的Balanced版本。

背景与挑战

背景概述

Creative_Writing_Multiturn数据集是一个专注于多轮对话和创意写作的高质量数据集，旨在提升模型在长上下文中的细节回忆能力以及生成引人入胜的故事情节的能力。该数据集由多个来源的高质量故事写作和角色扮演数据集合并而成，涵盖了小说风格、角色扮演、短对话等多种形式。其核心目标是增强模型的创造力，减少重复性表达，并使其能够适应不同的写作风格。数据集创建者通过精心筛选和手动编辑，确保样本的高质量和多样性，同时剔除了常见的GPT模型生成中的冗余表达。该数据集的出现为自然语言生成领域提供了新的研究方向，特别是在长文本生成和多轮对话任务中具有重要的应用价值。

当前挑战

Creative_Writing_Multiturn数据集在构建和应用过程中面临多重挑战。首先，数据集中包含大量多轮对话样本，如何确保模型在长上下文中保持连贯性和细节回忆能力是一个关键问题。其次，数据集来源多样，涵盖了不同风格和格式的文本，这要求模型具备强大的适应能力以处理多种写作风格。此外，数据集中存在大量显式内容，尽管创建者提供了SFW（适合工作环境）和平衡版本，但完全过滤这些内容仍具有挑战性。最后，数据集的规模庞大，手动编辑和去重工作耗费了大量时间和精力，如何在保证质量的同时高效处理数据也是一个重要挑战。

常用场景

经典使用场景

Creative_Writing_Multiturn数据集在自然语言处理领域，尤其是文本生成和角色扮演对话系统中，展现了其独特的价值。该数据集通过整合多个高质量的故事写作和角色扮演数据集，特别筛选了多轮对话样本，旨在提升模型在长上下文中的细节回忆能力，并增强其生成引人入胜的故事情节的能力。这种数据集的使用场景主要集中在需要高度创造性和多样性的文本生成任务中，如自动故事生成、角色扮演游戏中的对话系统等。

解决学术问题

该数据集解决了自然语言处理中一个关键问题：如何在长对话中保持信息的连贯性和创造性。通过提供大量多轮对话样本，研究者可以训练模型更好地理解和生成复杂的故事情节，减少重复性表达，并提高文本的多样性和创造性。这对于提升对话系统的用户体验和文本生成模型的质量具有重要意义。

衍生相关工作

基于Creative_Writing_Multiturn数据集，许多相关研究工作得以展开。例如，研究者开发了新的文本生成模型，这些模型能够更好地处理长对话和复杂情节。此外，该数据集还促进了多轮对话系统的优化，使得这些系统在实际应用中表现出更高的灵活性和适应性。这些工作不仅推动了自然语言处理技术的发展，也为相关领域的应用提供了新的可能性。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集