kingbri/PIPPA-shareGPT
收藏Hugging Face2023-09-03 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/kingbri/PIPPA-shareGPT
下载链接
链接失效反馈官方服务:
资源简介:
PIPPA-ShareGPT数据集是将PygmalionAI的PIPPA数据集去重后转换为ShareGPT格式的版本,适用于使用Axolotl进行微调。该数据集包含三个版本的文件:原始转换文件、带有USER和CHARACTER角色的文件,以及经过修剪和优化的文件。推荐使用经过修剪和优化的版本以避免错误和不一致。使用该数据集时需要应用特定的Axolotl补丁。
提供机构:
kingbri
原始信息汇总
数据集卡片:PIPPA-ShareGPT
概述
- 许可证:agpl-3.0
- 任务类别:对话
- 语言:英语
- 标签:对话、角色扮演、自定义格式
- 数据集大小:10K<n<100K
文件说明
- pippa_sharegpt_raw.jsonl:原始去重数据集文件,转换为ShareGPT格式。角色将默认设置为微调软件。
- pippa_sharegpt.jsonl:ShareGPT格式的数据集,角色为USER和CHARACTER,适用于axolotl微调。
- pippa_sharegpt_trimmed.jsonl:经过修剪的ShareGPT格式数据集,去除了空行、随机化的系统提示、空消息以及没有角色描述的示例。角色为USER和CHARACTER。
推荐使用
- 最佳文件:
pippa_sharegpt_trimmed.jsonl,适用于无错误或不一致性的微调。 - 最佳修改数据集:原始PIPPA去重数据集或
pippa_sharegpt.jsonl。
所需的Axolotl补丁
- 允许使用自定义系统提示的补丁。
- 允许自定义USER和ASSISTANT角色的补丁,并允许GPT提示在人类提示之前出现而不会被截断。
引用
bibtex @misc{gosling2023pippa, title={PIPPA: A Partially Synthetic Conversational Dataset}, author={Tear Gosling and Alpin Dale and Yinhe Zheng}, year={2023}, eprint={2308.05884}, archivePrefix={arXiv}, primaryClass={cs.CL} }
搜集汇总
数据集介绍

背景与挑战
背景概述
PIPPA-ShareGPT是一个英语对话数据集,规模在10K到100K之间,专为角色扮演和自定义格式设计,基于ArXiv论文2308.05884。它通过转换PygmalionAI的PIPPA去重数据集为ShareGPT格式,用于Axolotl微调,并提供多个优化版本文件以提高使用效果。
以上内容由遇见数据集搜集并总结生成



