five

grimulkan/PIPPA-augmented-dedup

收藏
Hugging Face2024-01-24 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/grimulkan/PIPPA-augmented-dedup
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个基于PIPPA-shareGPT数据集的增强和进一步清理的版本,采用Fastchat格式。修改包括:为第一个提示添加上下文和简单引用对话的各个方面;使用Faker库替换所有{name}和{char}为随机生成的实际名称和角色;移除非常短的对话(少于50个token);进一步去重并保留最长的独特对话;确保对话交替进行(用户/助手),始终以用户开始并以助手结束。

这是一个基于PIPPA-shareGPT数据集的增强和进一步清理的版本,采用Fastchat格式。修改包括:为第一个提示添加上下文和简单引用对话的各个方面;使用Faker库替换所有{name}和{char}为随机生成的实际名称和角色;移除非常短的对话(少于50个token);进一步去重并保留最长的独特对话;确保对话交替进行(用户/助手),始终以用户开始并以助手结束。
提供机构:
grimulkan
原始信息汇总

数据集概述

数据集来源与处理

数据集修改内容

  • 修改了第一个提示,增加了对话背景和简单引用(如OOC、表情符号使用、内容)。
  • 所有{name}和{char}被Faker随机生成的实际名称和角色替换。
  • 移除了非常短的对话(少于50个令牌)。
  • 进一步去重,保留最长的唯一对话。
  • 对话调整为交替形式(用户/助手),始终从用户开始,以助手结束。

数据集标签与许可证

  • 标签:not-for-all-audiences
  • 许可证:unknown
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作