Herrsimian
收藏Herrsimian 数据集概述
基本信息
- 许可证: AGPL-3.0
- 语言: 英语
- 标签: not-for-all-audiences
- 样本数量: 100
- 查看器: 不可用
数据集描述
Herrsimian 是一个小型(100个样本)的NSFW对话角色扮演数据集,主要包含(但不限于)某位专家角色扮演者的数据,该角色扮演者曾在多个论坛活跃至2022年底。该数据集用于Llama-3.1-Herrsimian-8B。
☢️ 警告: 该数据集包含高度可疑的内容。
数据集更新
数据集正在持续更新中。计划增加更多OOC消息和来自同一角色扮演源的样本,并修正可能出现的任何问题。
- 2024-09-04 - 增加了几个样本,总数达到100个
- 2024-09-03 - 首次上传到HF
数据集概览
所有样本由一个初始的回译指令定义场景、背景故事(如果适用)、角色、任务,然后是一个手动策划的对话,user和assistant轮流为自己的角色、叙述或OOC进行对话。
该数据集的一个设计特点是对话是多角色的。用户或模型可能扮演多个角色,并且用户/模型轮次不一定交替,这与大多数其他数据集的正常情况不同,并且在许多情况下,为了适当训练,这是必需的。这可能使数据集与某些管道不兼容。
另一个显著的设计特点是消息长度高度可变,从几个到几百个令牌长度不等,尽管平均大约在150个令牌左右(估计)。目的是模型应该能够学习何时自然地使用短消息或长消息,而不仅仅关注一个特定的长度。数据集样本永远不会包含非常短消息的长时间段。
对于角色扮演,尽可能地将assistant角色分配给该角色扮演者,以便使模型更有可能以相同的风格写作。在其他情况下,消息质量较低或较短的人被分配为user角色。
还包含一个name字段,用于表示正在行动或说话的角色的名字。如果没有该字段,则可以假设是LLM或用户在相互交谈。在频繁使用名字时,已经进行了一些随机化处理,尽管在这方面还需要做更多的工作。
目前尚未使用system角色,尽管大多数情况下第一个user消息可以被视为系统消息。对于RP,OOC消息根据上下文被赋予user或assistant角色,但从未有过名字。
除了纯论坛风格的角色扮演数据外,数据集还包括一些名人访谈(主要是政治人物),最初是为了尝试提升对话能力超越角色扮演,并希望稀释其中的R18+内容。目前尚不清楚它们是否真正有帮助。
微调建议
鉴于样本数量很少,针对大量数据的普通微调策略效果不佳。该数据集旨在主要通过明智的过拟合为模型提供一种声音。在Llama-3.1-Herrsimian-8B中,我使用了5个训练周期。
我通常不鼓励屏蔽用户轮次,因为一般来说,他们的写作质量中等良好,对数据集有积极贡献。在我的模型中,我通常将整个预格式化的对话作为原始文本/文本完成进行训练。
数据集统计
- 100个示例(93个论坛RP + 7个访谈)
- 最短示例: 3207个令牌
- 最长示例: 43231个令牌
- 总计: 1571708个令牌




