grimulkan/PIPPA-augmented-dedup
收藏Hugging Face2024-01-24 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/grimulkan/PIPPA-augmented-dedup
下载链接
链接失效反馈官方服务:
资源简介:
这是一个基于PIPPA-shareGPT数据集的增强和进一步清理的版本,采用Fastchat格式。修改包括:为第一个提示添加上下文和简单引用对话的各个方面;使用Faker库替换所有{name}和{char}为随机生成的实际名称和角色;移除非常短的对话(少于50个token);进一步去重并保留最长的独特对话;确保对话交替进行(用户/助手),始终以用户开始并以助手结束。
这是一个基于PIPPA-shareGPT数据集的增强和进一步清理的版本,采用Fastchat格式。修改包括:为第一个提示添加上下文和简单引用对话的各个方面;使用Faker库替换所有{name}和{char}为随机生成的实际名称和角色;移除非常短的对话(少于50个token);进一步去重并保留最长的独特对话;确保对话交替进行(用户/助手),始终以用户开始并以助手结束。
提供机构:
grimulkan
原始信息汇总
数据集概述
数据集来源与处理
- 本数据集是基于PIPPA-shareGPT的增强和进一步清理版本,特别是
pippa_sharegpt_trimmed.jsonl,源自PygmalianAI的PIPPA。
数据集修改内容
- 修改了第一个提示,增加了对话背景和简单引用(如OOC、表情符号使用、内容)。
- 所有{name}和{char}被Faker随机生成的实际名称和角色替换。
- 移除了非常短的对话(少于50个令牌)。
- 进一步去重,保留最长的唯一对话。
- 对话调整为交替形式(用户/助手),始终从用户开始,以助手结束。
数据集标签与许可证
- 标签:not-for-all-audiences
- 许可证:unknown



