lemonilia/LimaRP
收藏Hugging Face2023-11-11 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/lemonilia/LimaRP
下载链接
链接失效反馈官方服务:
资源简介:
LimaRP数据集包含约2000个手动选择和整理的一对一人类角色扮演对话,以及相关的LLM生成的角色和场景数据。对话数据以.yaml格式的源文件提供,并附带一个基本的Python脚本用于构建数据集。数据集主要用于对话和摘要任务,且包含一些不适合所有受众的内容。数据集的构建过程包括手动收集和整理数据,耗时超过500小时。对话数据采用论坛/小说风格,包括对话的引号、第三人称叙述、拟声词、内心思想等格式。数据来源包括多个需要注册的18+角色扮演论坛。已知问题包括语法和拼写错误、对话单调、编译错误、重复和不准确的描述、缺乏指令数据、名字偏见、缺乏多样性、数据集构建脚本质量不高、可能的冒充来源和性别混淆来源。未来的改进方向包括重新检查旧对话、重写场景和个性描述、增加指令数据、分类消息安全性、添加更多夸张的个性、包括其他信息进行微调、添加RP导向的小指令数据集、使用随机化的性别中性名字、在微调时包含消息长度提示、包括书籍中的人类训练数据以及更好地利用Markdown格式。
The LimaRP dataset contains approximately 2,000 manually selected and curated one-on-one human role-playing conversations, alongside related LLM-generated character and scene data. The conversation data is provided in YAML-formatted source files, accompanied by a basic Python script for dataset construction. The dataset is primarily intended for dialogue and summarization tasks, and includes content that is not suitable for all audiences. The dataset construction process involved manual data collection and curation, taking over 500 hours in total. The conversation data follows a forum/novel-style format, including elements such as dialogue quotation marks, third-person narration, onomatopoeia, and inner thoughts. The data sources include multiple 18+ role-playing forums that require user registration. Known issues include grammatical and spelling errors, monotonous dialogue, compilation errors, duplicate and inaccurate descriptions, lack of instruction data, name bias, insufficient diversity, low-quality dataset construction scripts, potential source impersonation, and gender-confused sourcing. Future improvement directions include re-examining old conversations, rewriting scene and personality descriptions, adding more instruction data, classifying message safety, incorporating more exaggerated personalities, including additional information for fine-tuning, adding RP-oriented small instruction datasets, using randomized gender-neutral names, including message length prompts during fine-tuning, incorporating human training data from books, and making better use of Markdown formatting.
提供机构:
lemonilia
原始信息汇总
LIMA ERP数据集(LimaRP)
数据集概述
- 数据类型: 1-on-1人类角色扮演对话及其相关LLM生成的人物和场景数据。
- 数据量: 约2000个手动选择和整理的对话。
- 数据格式: .yaml源文件格式 + 用于构建数据集的基本Python脚本。
- 数据用途: 用于"completion"格式的微调。
- 数据来源: 主要来自年龄限制(18+)的互联网论坛。
数据特点
- 内容警告: 包含可能被认为极端、不适当和令人不安的角色扮演元素和主题。
- 上下文大小: 前500个样本设计用于2048个令牌上下文大小,接下来的500个样本设计用于4096个令牌上下文大小或更大,后续样本设计用于8192个令牌上下文大小。
- 数据支持: 不提供数据集和构建脚本的支持。
已知问题
- 语法和拼写错误: 尽管努力减少,但仍存在一些语法和拼写错误。
- 对话乏味: 对话可能过于礼貌或乏味。
- 编译错误: 可能存在由于人为错误导致的标签错误或角色名称分配错误。
- 描述不准确: 人物信息和场景可能重复且缺乏深度。
- 缺乏指令数据: 数据集中没有指令数据。
- 名称偏见: 角色名称可能需要多样化以消除潜在的偏见。
- 缺乏多样性: 需要更多关注提高对话的多样性。
- 数据集构建脚本质量: 构建数据集的Python脚本质量不高且效率不高。
- 可能的模仿问题: 某些对话中的参与者可能同时扮演两个角色。
- 性别混淆: 一些对话包含“双性”或“跨性别”内容,可能使小规模模型混淆。
对话数据格式
- 格式类型: 论坛/小说风格。
- 格式细节:
- 对话用引号括起来。
- 叙述采用第三人称,简单过去时,无分隔符。
- 拟声词用星号括起来。
- 内心想法用下划线括起来。
- 非对话引用用两个撇号括起来。
- 标点符号已规范化。
- 使用占位符名称代替角色名称。
数据来源
- 来源比例: 数据来自多个角色扮演论坛,比例从0.2%到50.8%不等。
- 用户要求: 用户需要18岁以上才能在这些论坛或论坛子版块中写作。
- 个人信息: 用户名、OOC和其他个人信息未包含在训练数据中。
搜集汇总
数据集介绍

构建方式
LimaRP数据集的构建遵循了Zhou等人在arXiv:2305.11206中提出的原则,并通过手动筛选和整理了约2000个1对1的人类角色扮演对话。这些对话主要来源于18+的互联网论坛,且每个对话都附带了由LLM生成的角色和场景数据。数据集的构建过程耗时超过500小时,确保了数据的质量和多样性。对话数据以.yaml格式存储,并附带了一个基本的Python脚本用于构建数据集,旨在进行无监督微调。
特点
LimaRP数据集的特点在于其高度手工筛选的对话内容,确保了数据的质量和真实性。对话形式为论坛/小说风格,包含引用标记的对话和第三人称的叙述。数据集还包含了角色和场景的详细描述,尽管这些描述有时可能显得重复或不够深入。此外,数据集的构建考虑了不同上下文长度的需求,从2048到8192 tokens不等,以适应不同的模型训练需求。
使用方法
LimaRP数据集主要用于微调语言模型,特别是在角色扮演对话生成方面。用户可以通过提供的Python脚本将数据集转换为适合模型训练的格式。数据集的对话内容可以用于训练模型生成类似风格的对话,而角色和场景数据则可以帮助模型更好地理解上下文和角色设定。需要注意的是,数据集包含一些可能不适合所有受众的内容,使用时应谨慎。
背景与挑战
背景概述
LimaRP数据集是由lemonilia创建的,基于arXiv:2305.11206论文中的原则,并结合了Kaiokendev的SuperHOT项目的一些复现。该数据集包含了约2000个精心挑选和整理的1对1人类角色扮演对话,以及相关的LLM生成的角色和场景数据。这些对话主要来自18+的互联网论坛,旨在用于无监督微调的“完成”格式。LimaRP的创建历时超过500小时,达到了LIMA论文中建议的最小样本数量,标志着该项目在当前阶段的完成。
当前挑战
LimaRP数据集在构建过程中面临多项挑战。首先,尽管经过了精心校对,数据中仍存在语法错误和拼写问题,尤其是标点符号的使用。其次,对话内容可能显得过于礼貌或平淡,需要引入更多极端内容以增加多样性。此外,数据编译过程中可能存在错误,如话语标签分配错误或角色名称混淆。角色信息和场景描述可能重复且缺乏深度,需要手动编辑以提高质量。数据集中缺乏指令数据,且角色名称可能存在偏见,需要进一步多样化。最后,数据集构建脚本的质量和效率也有待提升。
常用场景
经典使用场景
LimaRP数据集主要用于微调语言模型,以生成高质量的1对1角色扮演对话。通过提供精心策划的人类角色扮演对话和相关的LLM生成的角色与场景数据,该数据集旨在帮助模型在无监督微调中学习如何生成符合角色设定的对话内容。这种微调方式特别适用于需要模拟复杂人际互动的应用场景,如虚拟助手、游戏角色对话生成等。
实际应用
LimaRP数据集在实际应用中主要用于增强虚拟角色的对话能力,特别是在需要高度个性化和情感表达的场景中。例如,在虚拟现实游戏、在线角色扮演社区以及智能助手中,该数据集可以帮助模型生成更加逼真和互动性强的对话内容。此外,它还可以用于训练能够处理复杂人际互动的AI系统,提升用户体验。
衍生相关工作
LimaRP数据集的发布催生了一系列相关研究和工作,特别是在角色扮演对话生成和个性化角色描述领域。例如,基于该数据集的个性化角色与场景生成器(LimaRP-perscengen-v5)展示了如何利用数据集中的信息生成详细的角色和场景描述。此外,还有研究探讨了如何进一步优化数据集的构建和微调过程,以提升模型的表现和适应性。
以上内容由遇见数据集搜集并总结生成



