five

crestf411/LimaRP-DS

收藏
Hugging Face2024-07-20 更新2024-07-22 收录
下载链接:
https://hf-mirror.com/datasets/crestf411/LimaRP-DS
下载链接
链接失效反馈
官方服务:
资源简介:
LimaRP数据集是一个包含约2000个手动选择和策划的一对一人类角色扮演对话的数据集,这些对话来源于年龄限制(18+)的互联网论坛。数据集还包括由大型语言模型生成的角色和场景数据。对话数据以.yaml格式的源文件形式存在,并附有用于构建数据集的基本Python脚本,旨在以“完成”格式进行微调。数据集中的对话仅涉及两个人类参与者,尽管有时参与者可能扮演多个角色。数据集的内容可能包含极端、令人不悦、震惊、不适当和令人不安的角色扮演元素和主题。数据集还包括一些已知问题,如语法和拼写错误、对话的单调性、编译错误、重复和不准确的描述、缺乏指令、名称偏见、缺乏多样性、数据集构建脚本质量差、可能的冒充来源和性别混淆来源。

The LimaRP dataset is a carefully selected and curated collection of 1-on-1 human-human roleplaying conversations, containing about 2000 dialogues. Each dialogue features only two human participants, although occasionally the participants may play the role of more than one character. The conversation data is in .yaml format and comes with a basic Python script for building the dataset, intended to be finetuned in completion format. The dataset is derived from age-restricted (18+) internet forums and contains content that may be considered extreme or inappropriate. The README also discusses various issues and potential improvements for the dataset, such as grammar and typos, dullness, compiling errors, and lack of diversity.
提供机构:
crestf411
原始信息汇总

LimaRP 数据集概述

基本信息

  • 许可证: Apache 2.0
  • 语言: 英语
  • 标签: not-for-all-audiences
  • 数据量: 1K<n<10K
  • 名称: LimaRP-DS

数据集描述

  • 内容: 包含约2000个手动选择和整理的1对1人类角色扮演对话,以及相关的LLM生成的角色和场景数据。
  • 对话形式: 所有对话仅涉及两个人类参与者,偶尔参与者可能扮演多个角色。
  • 数据格式: 源文件为.yaml格式,附带基本的Python脚本用于构建数据集,适用于“completion”格式的微调。

数据集特点

  • 数据来源: 数据主要从年龄限制(18+)的互联网论坛中获取,包含可能被视为极端、不适当和令人不安的角色扮演元素和话题。
  • 上下文大小: 前500个样本设计用于2048个token的上下文大小,接下来的500个样本设计用于4096个token或更大的上下文大小。后续的训练样本设计用于8192个token的上下文大小。
  • 密码保护: 数据集文件是密码保护的,密码为LimaRP

已知问题

  • 语法和拼写错误: 尽管已尽力减少,但仍存在一定程度的拼写和语法错误,特别是标点符号问题。
  • 对话乏味: 整体对话可能过于礼貌或乏味,主要原因是大多数对话来自中等写作水平的“普通”角色扮演。
  • 编译错误: 由于人为错误,可能存在话语被分配错误标签或占位符名称被分配给错误角色的情况。
  • 描述重复和不准确: 角色信息和场景可能存在重复、缺乏深度和某些角色特质缺失的问题。
  • 缺乏指令数据: 数据集中没有任何指令数据,尽管最初计划仅关注对话,但加入少量指令数据可能有助于数据集的独立性。
  • 名称偏见: 角色名称可能需要多样化,以消除潜在的不良偏见。
  • 缺乏多样性: 总体上需要更多关注对话的多样性,某些长对话被拆分为多个对话,以适应4k/8k token的目标。
  • 数据集构建脚本质量差: 用于构建数据集的Python脚本质量不高,效率也不高。
  • 可能的冒充来源: 某些对话中的参与者持续扮演两个角色,需要注意可能的冒充问题。
  • 性别混淆来源: 某些对话包含“futanari”或“transgender”内容,可能会使小规模模型产生混淆。

对话数据格式

  • 格式: 仅使用论坛/小说风格格式。
    • 对话用引号括起来。
    • 叙述为第三人称,简单过去时,无分隔符。
  • 格式细节:
    • 叙述无分隔符。
    • 对话用ASCII双引号括起来。
    • 拟声词用星号括起来。
    • 内心想法用下划线括起来。
    • 非对话引用用两个撇号括起来。
    • 标点符号已规范化。
    • 占位符名称用于角色,<FIRST>代表模型/机器人,<SECOND>代表人类/用户。

数据来源

  • 来源: 数据来自多个角色扮演论坛,包括All The Fallen、Black Dahlia Roleplaying、Blue Moon Roleplaying等。
  • 权重: 数据来源的权重按字节计算,例如All The Fallen占5.1%,Blue Moon Roleplaying占18.4%。

改进建议

  • 重新检查旧对话并合并短对话
  • 重写场景和角色以更人性化和多样化
  • 在对话中加入指令
  • 分类消息的安全性
  • 增加“夸张”的角色
  • 在微调时包含其他信息
  • 添加专注于角色扮演的小指令数据集
  • 在训练数据中使用真正随机的、性别中立的名称
  • 在微调时使用消息长度提示
  • 包含来自书籍的人类训练数据
  • 更广泛地使用Markdown格式
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作