KaraKaraWitch/PIPPA-ShareGPT-formatted
收藏Hugging Face2023-08-14 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/KaraKaraWitch/PIPPA-ShareGPT-formatted
下载链接
链接失效反馈官方服务:
资源简介:
PIPPA(Personal Interaction Pairs between People and AI)是一个部分合成、社区贡献的开源对话和角色扮演数据集,源自Pygmalion项目提交的日志子集。数据集包含超过100万行对话,分布在26,000个对话中,涉及1,000多个独特角色。数据集以JSONL文件形式提供,每个JSON片段代表一个完整的对话,包含提交时间戳、角色类别、角色ID、角色名称、角色问候语、角色定义、角色描述和对话内容等信息。数据集还提供了多个变体文件,包括原始数据集、去重版本和格式化版本。
提供机构:
KaraKaraWitch
原始信息汇总
PIPPA - Personal Interaction Pairs between People and AI
数据集概述
PIPPA(Personal Interaction Pairs between People and AI)是一个部分合成、社区贡献的开放源代码对话和角色扮演数据集,由提交给Pygmalion项目的日志子集生成。该数据集仅包含提交者同意重新分发的有效对话日志,并已尽力删除或修改可能包含在PIPPA中的任何个人信息。
数据集内容
PIPPA包含超过100万行对话,分布在26,000个对话中,涉及用户与流行聊天机器人网站“Character.AI”及其大型语言模型之间的对话。数据集中有超过1,000个独特的角色模拟,包括真实和虚构角色,使PIPPA和在其上微调的LLM能够适应多种角色扮演领域。
数据格式
数据集以JSONL文件格式表示,每个JSON片段代表一个完整的对话,包含以下数据:
submission_timestamp:对话提交到项目的Unix时间戳(以毫秒为单位)。categories:在Character.AI网站上分配给角色的类别,如果没有分配则为null。bot_id:分配给网站上用户正在与之对话的特定角色的唯一ID。bot_name:角色的名称。bot_greeting:角色对用户的开场白,这是对话中的第一个话语。bot_definitions:在角色创建者的Definitions字段中输入的内容,通常包含用户和角色之间的示例对话,以正确模拟角色。bot_description:在角色创建者的Description字段中输入的内容,通常包含对角色的简要概述和重要细节。conversation:用户和模型之间的对话,表示为字典列表,每个字典包含两个键值对:message(话语本身)和is_human(指定话语是由用户还是LLM生成)。
文件版本
数据集发布为多个版本的JSONL文件:
- pippa.jsonl:原始数据集,几乎完全按照提交给我们的方式(除了由于删除个人身份信息而进行的修改)。
- pippa_deduped.jsonl:经过清理的PIPPA版本,删除了重复对话和少于三回合的对话。推荐使用此文件。
- pippa_metharme.jsonl:格式类似于Metharme教学模型的deduped PIPPA版本,可用作正确格式化PIPPA数据集的示例。
注意事项
PIPPA包含可能被视为“不适合工作场所”(NSFW)和/或性质严重令人不安的对话、主题和场景。仅使用PIPPA训练的模型可能倾向于生成限制级输出。
引用
如果使用此数据集,请考虑引用我们的工作: bibtex @misc{gosling2023pippa, title={PIPPA: A Partially Synthetic Conversational Dataset}, author={Tear Gosling and Alpin Dale and Yinhe Zheng}, year={2023}, eprint={2308.05884}, archivePrefix={arXiv}, primaryClass={cs.CL} }



