five

kingbri/PIPPA-shareGPT

收藏
Hugging Face2023-09-03 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/kingbri/PIPPA-shareGPT
下载链接
链接失效反馈
官方服务:
资源简介:
PIPPA-ShareGPT数据集是将PygmalionAI的PIPPA数据集去重后转换为ShareGPT格式的版本,适用于使用Axolotl进行微调。该数据集包含三个版本的文件:原始转换文件、带有USER和CHARACTER角色的文件,以及经过修剪和优化的文件。推荐使用经过修剪和优化的版本以避免错误和不一致。使用该数据集时需要应用特定的Axolotl补丁。
提供机构:
kingbri
原始信息汇总

数据集卡片:PIPPA-ShareGPT

概述

  • 许可证:agpl-3.0
  • 任务类别:对话
  • 语言:英语
  • 标签:对话、角色扮演、自定义格式
  • 数据集大小:10K<n<100K

文件说明

  • pippa_sharegpt_raw.jsonl:原始去重数据集文件,转换为ShareGPT格式。角色将默认设置为微调软件。
  • pippa_sharegpt.jsonl:ShareGPT格式的数据集,角色为USER和CHARACTER,适用于axolotl微调。
  • pippa_sharegpt_trimmed.jsonl:经过修剪的ShareGPT格式数据集,去除了空行、随机化的系统提示、空消息以及没有角色描述的示例。角色为USER和CHARACTER。

推荐使用

  • 最佳文件pippa_sharegpt_trimmed.jsonl,适用于无错误或不一致性的微调。
  • 最佳修改数据集:原始PIPPA去重数据集或pippa_sharegpt.jsonl

所需的Axolotl补丁

  • 允许使用自定义系统提示的补丁。
  • 允许自定义USER和ASSISTANT角色的补丁,并允许GPT提示在人类提示之前出现而不会被截断。

引用

bibtex @misc{gosling2023pippa, title={PIPPA: A Partially Synthetic Conversational Dataset}, author={Tear Gosling and Alpin Dale and Yinhe Zheng}, year={2023}, eprint={2308.05884}, archivePrefix={arXiv}, primaryClass={cs.CL} }

搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
PIPPA-ShareGPT是一个英语对话数据集,规模在10K到100K之间,专为角色扮演和自定义格式设计,基于ArXiv论文2308.05884。它通过转换PygmalionAI的PIPPA去重数据集为ShareGPT格式,用于Axolotl微调,并提供多个优化版本文件以提高使用效果。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作