lemonilia/LimaRP|角色扮演数据集|数据微调数据集
收藏LIMA ERP数据集(LimaRP)
数据集概述
- 数据类型: 1-on-1人类角色扮演对话及其相关LLM生成的人物和场景数据。
- 数据量: 约2000个手动选择和整理的对话。
- 数据格式: .yaml源文件格式 + 用于构建数据集的基本Python脚本。
- 数据用途: 用于"completion"格式的微调。
- 数据来源: 主要来自年龄限制(18+)的互联网论坛。
数据特点
- 内容警告: 包含可能被认为极端、不适当和令人不安的角色扮演元素和主题。
- 上下文大小: 前500个样本设计用于2048个令牌上下文大小,接下来的500个样本设计用于4096个令牌上下文大小或更大,后续样本设计用于8192个令牌上下文大小。
- 数据支持: 不提供数据集和构建脚本的支持。
已知问题
- 语法和拼写错误: 尽管努力减少,但仍存在一些语法和拼写错误。
- 对话乏味: 对话可能过于礼貌或乏味。
- 编译错误: 可能存在由于人为错误导致的标签错误或角色名称分配错误。
- 描述不准确: 人物信息和场景可能重复且缺乏深度。
- 缺乏指令数据: 数据集中没有指令数据。
- 名称偏见: 角色名称可能需要多样化以消除潜在的偏见。
- 缺乏多样性: 需要更多关注提高对话的多样性。
- 数据集构建脚本质量: 构建数据集的Python脚本质量不高且效率不高。
- 可能的模仿问题: 某些对话中的参与者可能同时扮演两个角色。
- 性别混淆: 一些对话包含“双性”或“跨性别”内容,可能使小规模模型混淆。
对话数据格式
- 格式类型: 论坛/小说风格。
- 格式细节:
- 对话用引号括起来。
- 叙述采用第三人称,简单过去时,无分隔符。
- 拟声词用星号括起来。
- 内心想法用下划线括起来。
- 非对话引用用两个撇号括起来。
- 标点符号已规范化。
- 使用占位符名称代替角色名称。
数据来源
- 来源比例: 数据来自多个角色扮演论坛,比例从0.2%到50.8%不等。
- 用户要求: 用户需要18岁以上才能在这些论坛或论坛子版块中写作。
- 个人信息: 用户名、OOC和其他个人信息未包含在训练数据中。

LFW
人脸数据集;LFW数据集共有13233张人脸图像,每张图像均给出对应的人名,共有5749人,且绝大部分人仅有一张图片。每张图片的尺寸为250X250,绝大部分为彩色图像,但也存在少许黑白人脸图片。 URL: http://vis-www.cs.umass.edu/lfw/index.html#download
AI_Studio 收录
中国交通事故深度调查(CIDAS)数据集
交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息,以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例,单个案例信息包含人、车 、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征,探索事故预防和损伤防护措施的关键数据源,为制定汽车安全法规和标准、完善汽车测评试验规程、
北方大数据交易中心 收录
CatMeows
该数据集包含440个声音样本,由21只属于两个品种(缅因州库恩猫和欧洲短毛猫)的猫在三种不同情境下发出的喵声组成。这些情境包括刷毛、在陌生环境中隔离和等待食物。每个声音文件都遵循特定的命名约定,包含猫的唯一ID、品种、性别、猫主人的唯一ID、录音场次和发声计数。此外,还有一个额外的zip文件,包含被排除的录音(非喵声)和未剪辑的连续发声序列。
huggingface 收录
Desert Knowledge Australia Solar Centre PV Power Data
该数据集包含来自澳大利亚Alice Springs的Site 7的太阳能发电数据,包括有功功率(AP,kW)、历史温度(T,℃)、相对湿度(RH,%)、全球水平辐照度(GHI,Wh/m²)和漫射水平辐照度(DHI,Wh/m²)。
github 收录
THUCNews
THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成,包含74万篇新闻文档(2.19 GB),均为UTF-8纯文本格式。本次比赛数据集在原始新浪新闻分类体系的基础上,重新整合划分出14个候选分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐。提供训练数据共832471条。
github 收录