Herrsimian

Hugging Face2024-09-03 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/lemonilia/Herrsimian

下载链接

链接失效反馈

官方服务：

资源简介：

Herrsimian数据集是一个包含100个样本的小型NSFW对话角色扮演数据集，主要来源于一位特定的高级角色扮演者在多个论坛上的活动，直到2022年底。该数据集用于训练特定的语言模型，如Llama-3.1-Herrsimian-8B。数据集的特点包括多角色对话、消息长度高度可变、以及包含一些名人访谈以尝试扩展对话能力并减少成人内容的影响。数据集的样本包括场景定义、背景故事、角色任务以及用户和助手之间的对话。数据集的设计旨在通过适度过拟合赋予模型特定的‘声音’。

The Herrsimian dataset is a small NSFW conversational role-playing dataset consisting of 100 samples. It is primarily sourced from the activities of a specific senior role-player across multiple forums until the end of 2022. The dataset is utilized for training specialized language models such as Llama-3.1-Herrsimian-8B. Key features of the dataset include multi-role dialogues, highly variable message lengths, and the incorporation of select celebrity interviews to attempt expanding conversational capabilities and reducing the impact of adult content. Dataset samples encompass scene definitions, background narratives, character tasks, and conversations between users and assistants. The dataset is designed to imbue the target language model with a distinct 'voice' through moderate overfitting.

创建时间：

2024-09-03

原始信息汇总

Herrsimian 数据集概述

基本信息

许可证: AGPL-3.0
语言: 英语
标签: not-for-all-audiences
样本数量: 100
查看器: 不可用

数据集描述

Herrsimian 是一个小型（100个样本）的NSFW对话角色扮演数据集，主要包含（但不限于）某位专家角色扮演者的数据，该角色扮演者曾在多个论坛活跃至2022年底。该数据集用于Llama-3.1-Herrsimian-8B。

☢️ 警告: 该数据集包含高度可疑的内容。

数据集更新

数据集正在持续更新中。计划增加更多OOC消息和来自同一角色扮演源的样本，并修正可能出现的任何问题。

2024-09-04 - 增加了几个样本，总数达到100个
2024-09-03 - 首次上传到HF

数据集概览

所有样本由一个初始的回译指令定义场景、背景故事（如果适用）、角色、任务，然后是一个手动策划的对话，user和assistant轮流为自己的角色、叙述或OOC进行对话。

该数据集的一个设计特点是对话是多角色的。用户或模型可能扮演多个角色，并且用户/模型轮次不一定交替，这与大多数其他数据集的正常情况不同，并且在许多情况下，为了适当训练，这是必需的。这可能使数据集与某些管道不兼容。

另一个显著的设计特点是消息长度高度可变，从几个到几百个令牌长度不等，尽管平均大约在150个令牌左右（估计）。目的是模型应该能够学习何时自然地使用短消息或长消息，而不仅仅关注一个特定的长度。数据集样本永远不会包含非常短消息的长时间段。

对于角色扮演，尽可能地将assistant角色分配给该角色扮演者，以便使模型更有可能以相同的风格写作。在其他情况下，消息质量较低或较短的人被分配为user角色。

还包含一个name字段，用于表示正在行动或说话的角色的名字。如果没有该字段，则可以假设是LLM或用户在相互交谈。在频繁使用名字时，已经进行了一些随机化处理，尽管在这方面还需要做更多的工作。

目前尚未使用system角色，尽管大多数情况下第一个user消息可以被视为系统消息。对于RP，OOC消息根据上下文被赋予user或assistant角色，但从未有过名字。

除了纯论坛风格的角色扮演数据外，数据集还包括一些名人访谈（主要是政治人物），最初是为了尝试提升对话能力超越角色扮演，并希望稀释其中的R18+内容。目前尚不清楚它们是否真正有帮助。

微调建议

鉴于样本数量很少，针对大量数据的普通微调策略效果不佳。该数据集旨在主要通过明智的过拟合为模型提供一种声音。在Llama-3.1-Herrsimian-8B中，我使用了5个训练周期。

我通常不鼓励屏蔽用户轮次，因为一般来说，他们的写作质量中等良好，对数据集有积极贡献。在我的模型中，我通常将整个预格式化的对话作为原始文本/文本完成进行训练。

数据集统计

100个示例（93个论坛RP + 7个访谈）
最短示例: 3207个令牌
最长示例: 43231个令牌
总计: 1571708个令牌

搜集汇总

数据集介绍

构建方式

Herrsimian数据集的构建主要基于一位曾在多个论坛上活跃的角色扮演专家的对话数据，涵盖了截至2022年底的内容。数据集包含131个样本，每个样本由初始的背景翻译指令定义场景、背景故事、角色和任务，随后是经过手动整理的完整对话，包含用户和助手的角色扮演、叙述或场外对话。数据集的设计特点在于其多角色对话结构，用户和模型的角色可能不交替出现，且对话长度高度可变，旨在使模型能够适应不同长度的对话。

特点

Herrsimian数据集的特点在于其长上下文对话（最多约52,000个标记）和多角色交互的设计。数据集中的对话不仅包含角色扮演，还涉及名人访谈，尽管这些访谈的实用性尚不明确。此外，数据集中的角色名称可能会在对话过程中发生变化，且多个角色可能同时发言或行动，这种设计模拟了某些日本视觉小说中的脚本风格。数据集的内容主要为不适合所有受众的成人内容，且对话长度分布广泛，从几个标记到数百个标记不等。

使用方法

Herrsimian数据集的使用方法主要涉及通过Python代码进行数据处理，以适应其非标准的ShareGPT格式。由于数据集的多角色和非交替对话结构，传统的训练管道可能不兼容。建议使用LoRA微调策略进行模型训练，避免对用户对话进行掩码处理，以保留其写作质量。此外，可以通过裁剪对话内容来限制模型的输出，避免过早进入不适合的场景。数据集中的前几个样本为名人访谈，可以跳过以避免对模型产生不必要的影响。

背景与挑战

背景概述

Herrsimian数据集是一个由131个样本组成的小规模长上下文对话数据集，主要包含来自某位专家级角色扮演者在多个论坛上的对话内容，时间跨度至2022年底。该数据集由lemonilia团队于2024年9月首次发布，旨在为Llama-3.1-Herrsimian-8B模型提供特定风格的对话训练数据。其核心研究问题在于如何通过有限的数据量，训练出能够生成高质量、长上下文对话的模型，尤其是在角色扮演和多角色交互场景中。尽管数据集规模较小，但其独特的设计和多角色对话结构为对话生成领域提供了新的研究方向。

当前挑战

Herrsimian数据集在构建和应用过程中面临多重挑战。首先，数据集的核心内容涉及高度敏感的NSFW（不适合所有受众）材料，这限制了其在广泛研究中的应用，并对其合规性和伦理审查提出了更高要求。其次，数据集的非标准格式和多角色对话结构使其与现有的对话生成模型训练流程不兼容，需要额外的预处理步骤。此外，数据集中对话长度的高度可变性以及角色名称的动态变化，增加了模型训练的复杂性。最后，由于数据集规模极小，传统的微调策略难以奏效，研究者需要探索针对小数据集的过拟合策略，以确保模型能够捕捉到特定风格和上下文信息。

常用场景

经典使用场景

Herrsimian数据集主要应用于长上下文对话生成模型的训练，尤其是在处理多角色、非标准对话格式的场景中。其独特的对话结构和多角色交互设计，使得该数据集在模拟复杂对话情境时表现出色，特别适用于需要高语境理解能力的模型训练。

实际应用

在实际应用中，Herrsimian数据集可用于开发具有高语境理解能力的对话系统，特别是在角色扮演游戏、虚拟助手和复杂对话场景中。其多角色交互设计使得生成的对话更加自然和连贯，提升了用户体验。

衍生相关工作

Herrsimian数据集衍生了多个相关研究工作，特别是在长上下文对话生成和多角色交互领域。例如，基于该数据集训练的Llama-3.1-Herrsimian-8B模型，展示了在复杂对话情境中的优异表现，为后续研究提供了重要参考。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集