lemonilia/LimaRP|角色扮演数据集|数据微调数据集

hugging_face2023-11-11 更新2024-03-04 收录

角色扮演

数据微调

下载链接：

https://hf-mirror.com/datasets/lemonilia/LimaRP

下载链接

链接失效反馈

资源简介：

LimaRP数据集包含约2000个手动选择和整理的一对一人类角色扮演对话，以及相关的LLM生成的角色和场景数据。对话数据以.yaml格式的源文件提供，并附带一个基本的Python脚本用于构建数据集。数据集主要用于对话和摘要任务，且包含一些不适合所有受众的内容。数据集的构建过程包括手动收集和整理数据，耗时超过500小时。对话数据采用论坛/小说风格，包括对话的引号、第三人称叙述、拟声词、内心思想等格式。数据来源包括多个需要注册的18+角色扮演论坛。已知问题包括语法和拼写错误、对话单调、编译错误、重复和不准确的描述、缺乏指令数据、名字偏见、缺乏多样性、数据集构建脚本质量不高、可能的冒充来源和性别混淆来源。未来的改进方向包括重新检查旧对话、重写场景和个性描述、增加指令数据、分类消息安全性、添加更多夸张的个性、包括其他信息进行微调、添加RP导向的小指令数据集、使用随机化的性别中性名字、在微调时包含消息长度提示、包括书籍中的人类训练数据以及更好地利用Markdown格式。

提供机构：

lemonilia

原始信息汇总

LIMA ERP数据集（LimaRP）

数据集概述

数据类型: 1-on-1人类角色扮演对话及其相关LLM生成的人物和场景数据。
数据量: 约2000个手动选择和整理的对话。
数据格式: .yaml源文件格式 + 用于构建数据集的基本Python脚本。
数据用途: 用于"completion"格式的微调。
数据来源: 主要来自年龄限制（18+）的互联网论坛。

数据特点

内容警告: 包含可能被认为极端、不适当和令人不安的角色扮演元素和主题。
上下文大小: 前500个样本设计用于2048个令牌上下文大小，接下来的500个样本设计用于4096个令牌上下文大小或更大，后续样本设计用于8192个令牌上下文大小。
数据支持: 不提供数据集和构建脚本的支持。

已知问题

语法和拼写错误: 尽管努力减少，但仍存在一些语法和拼写错误。
对话乏味: 对话可能过于礼貌或乏味。
编译错误: 可能存在由于人为错误导致的标签错误或角色名称分配错误。
描述不准确: 人物信息和场景可能重复且缺乏深度。
缺乏指令数据: 数据集中没有指令数据。
名称偏见: 角色名称可能需要多样化以消除潜在的偏见。
缺乏多样性: 需要更多关注提高对话的多样性。
数据集构建脚本质量: 构建数据集的Python脚本质量不高且效率不高。
可能的模仿问题: 某些对话中的参与者可能同时扮演两个角色。
性别混淆: 一些对话包含“双性”或“跨性别”内容，可能使小规模模型混淆。

对话数据格式

格式类型: 论坛/小说风格。
格式细节:
- 对话用引号括起来。
- 叙述采用第三人称，简单过去时，无分隔符。
- 拟声词用星号括起来。
- 内心想法用下划线括起来。
- 非对话引用用两个撇号括起来。
- 标点符号已规范化。
- 使用占位符名称代替角色名称。

数据来源

来源比例: 数据来自多个角色扮演论坛，比例从0.2%到50.8%不等。
用户要求: 用户需要18岁以上才能在这些论坛或论坛子版块中写作。
个人信息: 用户名、OOC和其他个人信息未包含在训练数据中。

AI搜集汇总

数据集介绍

构建方式

LimaRP数据集的构建遵循了Zhou等人在arXiv:2305.11206中提出的原则，并通过手动筛选和整理了约2000个1对1的人类角色扮演对话。这些对话主要来源于18+的互联网论坛，且每个对话都附带了由LLM生成的角色和场景数据。数据集的构建过程耗时超过500小时，确保了数据的质量和多样性。对话数据以.yaml格式存储，并附带了一个基本的Python脚本用于构建数据集，旨在进行无监督微调。

特点

LimaRP数据集的特点在于其高度手工筛选的对话内容，确保了数据的质量和真实性。对话形式为论坛/小说风格，包含引用标记的对话和第三人称的叙述。数据集还包含了角色和场景的详细描述，尽管这些描述有时可能显得重复或不够深入。此外，数据集的构建考虑了不同上下文长度的需求，从2048到8192 tokens不等，以适应不同的模型训练需求。

使用方法

LimaRP数据集主要用于微调语言模型，特别是在角色扮演对话生成方面。用户可以通过提供的Python脚本将数据集转换为适合模型训练的格式。数据集的对话内容可以用于训练模型生成类似风格的对话，而角色和场景数据则可以帮助模型更好地理解上下文和角色设定。需要注意的是，数据集包含一些可能不适合所有受众的内容，使用时应谨慎。

背景与挑战

背景概述

LimaRP数据集是由lemonilia创建的，基于arXiv:2305.11206论文中的原则，并结合了Kaiokendev的SuperHOT项目的一些复现。该数据集包含了约2000个精心挑选和整理的1对1人类角色扮演对话，以及相关的LLM生成的角色和场景数据。这些对话主要来自18+的互联网论坛，旨在用于无监督微调的“完成”格式。LimaRP的创建历时超过500小时，达到了LIMA论文中建议的最小样本数量，标志着该项目在当前阶段的完成。

当前挑战

LimaRP数据集在构建过程中面临多项挑战。首先，尽管经过了精心校对，数据中仍存在语法错误和拼写问题，尤其是标点符号的使用。其次，对话内容可能显得过于礼貌或平淡，需要引入更多极端内容以增加多样性。此外，数据编译过程中可能存在错误，如话语标签分配错误或角色名称混淆。角色信息和场景描述可能重复且缺乏深度，需要手动编辑以提高质量。数据集中缺乏指令数据，且角色名称可能存在偏见，需要进一步多样化。最后，数据集构建脚本的质量和效率也有待提升。

常用场景

经典使用场景

LimaRP数据集主要用于微调语言模型，以生成高质量的1对1角色扮演对话。通过提供精心策划的人类角色扮演对话和相关的LLM生成的角色与场景数据，该数据集旨在帮助模型在无监督微调中学习如何生成符合角色设定的对话内容。这种微调方式特别适用于需要模拟复杂人际互动的应用场景，如虚拟助手、游戏角色对话生成等。

实际应用

LimaRP数据集在实际应用中主要用于增强虚拟角色的对话能力，特别是在需要高度个性化和情感表达的场景中。例如，在虚拟现实游戏、在线角色扮演社区以及智能助手中，该数据集可以帮助模型生成更加逼真和互动性强的对话内容。此外，它还可以用于训练能够处理复杂人际互动的AI系统，提升用户体验。

衍生相关工作

LimaRP数据集的发布催生了一系列相关研究和工作，特别是在角色扮演对话生成和个性化角色描述领域。例如，基于该数据集的个性化角色与场景生成器（LimaRP-perscengen-v5）展示了如何利用数据集中的信息生成详细的角色和场景描述。此外，还有研究探讨了如何进一步优化数据集的构建和微调过程，以提升模型的表现和适应性。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

LFW

人脸数据集;LFW数据集共有13233张人脸图像，每张图像均给出对应的人名，共有5749人，且绝大部分人仅有一张图片。每张图片的尺寸为250X250，绝大部分为彩色图像，但也存在少许黑白人脸图片。 URL: http://vis-www.cs.umass.edu/lfw/index.html#download

AI_Studio 收录

中国交通事故深度调查（CIDAS）数据集

交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息，以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例，单个案例信息包含人、车、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征，探索事故预防和损伤防护措施的关键数据源，为制定汽车安全法规和标准、完善汽车测评试验规程、

北方大数据交易中心收录

CatMeows

该数据集包含440个声音样本，由21只属于两个品种（缅因州库恩猫和欧洲短毛猫）的猫在三种不同情境下发出的喵声组成。这些情境包括刷毛、在陌生环境中隔离和等待食物。每个声音文件都遵循特定的命名约定，包含猫的唯一ID、品种、性别、猫主人的唯一ID、录音场次和发声计数。此外，还有一个额外的zip文件，包含被排除的录音（非喵声）和未剪辑的连续发声序列。

huggingface 收录

Desert Knowledge Australia Solar Centre PV Power Data

该数据集包含来自澳大利亚Alice Springs的Site 7的太阳能发电数据，包括有功功率（AP，kW）、历史温度（T，℃）、相对湿度（RH，%）、全球水平辐照度（GHI，Wh/m²）和漫射水平辐照度（DHI，Wh/m²）。

github 收录

THUCNews

THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成，包含74万篇新闻文档（2.19 GB），均为UTF-8纯文本格式。本次比赛数据集在原始新浪新闻分类体系的基础上，重新整合划分出14个候选分类类别：财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐。提供训练数据共832471条。

github 收录