PygmalionAI/PIPPA

Name: PygmalionAI/PIPPA
Creator: PygmalionAI
Published: 2023-09-07 03:07:55
License: 暂无描述

Hugging Face2023-09-07 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/PygmalionAI/PIPPA

下载链接

链接失效反馈

官方服务：

资源简介：

PIPPA（人与AI之间的个人互动对）是一个部分合成、社区贡献的开源对话和角色扮演数据集，来源于Pygmalion项目提交的日志子集。该数据集包含超过100万行对话，分布在26,000个对话中，涉及1,000多个独特的人物角色，涵盖真实和虚构角色。数据集以JSONL文件格式提供，每个JSON片段代表一个完整的对话，包含对话的时间戳、角色类别、角色ID、角色名称、角色问候语、角色定义、角色描述以及对话内容等信息。数据集包含NSFW内容，需谨慎使用。

PIPPA (Person-AI Personal Interaction Pairs) is a partially synthetic, community-contributed open-source dialogue and role-playing dataset derived from a subset of logs submitted by the Pygmalion project. This dataset contains over 1 million dialogue lines across 26,000 conversations, involving more than 1,000 unique character personas covering both real and fictional individuals. The dataset is provided in JSONL file format, where each JSON entry represents a complete conversation, including information such as conversation timestamps, character category, character ID, character name, character greeting, character definition, character description, and dialogue content. The dataset includes NSFW content and should be used with caution.

提供机构：

PygmalionAI

原始信息汇总

数据集概述

数据集名称

PIPPA - Personal Interaction Pairs between People and AI

数据集描述

PIPPA 是一个部分合成的、社区贡献的、开源的对话和角色扮演数据集，源自提交给Pygmalion项目的对话日志子集。该数据集仅包含提交者同意公开分发的有效对话日志，并已尽力删除或修改其中的个人隐私信息。

数据集内容

包含超过100万行对话，分布在26,000个对话中，涉及用户与“Character.AI”网站的大型语言模型之间的交互。
数据集涵盖超过1,000个独特的角色，模拟真实和虚构角色，适用于多种角色扮演领域。

数据集格式

数据以JSONL文件格式表示，每个JSON片段代表一个完整的对话。
每个对话片段包含以下数据：
- submission_timestamp: 对话提交到项目的时间戳。
- categories: 角色在Character.AI网站上分配的类别。
- bot_id: 角色的唯一ID。
- bot_name: 角色名称。
- bot_greeting: 角色的介绍语。
- bot_definitions: 角色创建者在网站上输入的定义。
- bot_description: 角色描述。
- conversation: 用户与模型之间的对话，以字典列表形式表示，每个字典包含message和is_human两个键值对。

数据集文件

pippa.jsonl: 原始数据集。
pippa_deduped.jsonl: 去重和清理后的数据集，推荐使用。
pippa_metharme.jsonl: 格式化后的数据集，用于展示如何正确格式化PIPPA数据集。

注意事项

数据集包含可能被视为“不适合工作环境”（NSFW）或性质严重的对话、主题和场景。
使用PIPPA训练的模型可能产生成人内容。

引用信息

bibtex @misc{gosling2023pippa, title={PIPPA: A Partially Synthetic Conversational Dataset}, author={Tear Gosling and Alpin Dale and Yinhe Zheng}, year={2023}, eprint={2308.05884}, archivePrefix={arXiv}, primaryClass={cs.CL} }

搜集汇总

数据集介绍

构建方式

在人工智能对话系统研究领域，构建高质量、多样化的对话数据集对于模型训练至关重要。PIPPA数据集通过社区协作的方式，从Character.AI平台收集用户与大型语言模型之间的真实交互日志，并经过严格的筛选与处理流程。具体而言，该数据集仅包含提交者同意公开的有效对话记录，同时团队对可能存在的个人身份信息进行了细致的匿名化处理，确保数据隐私安全。此外，数据集还整合了部分合成数据，形成了包含超过100万行对话、涵盖26,000次会话的丰富资源，体现了开放科学与社区贡献的融合。

使用方法

为便于学术与应用开发，PIPPA提供了多个预处理版本。研究者可通过HuggingFace的`datasets`库直接加载，例如指定`pippa_deduped`版本以获取去重且过滤短对话的优化数据。该版本移除了重复条目及少于三轮的会话，推荐作为模型训练的首选。对于特定模型适配，`pippa_metharme.jsonl`文件提供了与Metharme指令模型兼容的格式化示例。使用前需注意，角色定义字段可能遵循Character.AI的独特格式，建议参考原论文附录进行预处理，以确保数据与目标模型的输入要求对齐。

背景与挑战

背景概述

在人工智能对话系统迅猛发展的背景下，PygmalionAI团队于2023年推出了PIPPA数据集，旨在深化人机交互与角色扮演领域的研究。该数据集由社区贡献的对话日志构成，聚焦于模拟真实与虚构人物间的个性化交流，涵盖了超过26,000次对话和1000多种独特角色，为大规模语言模型的微调提供了丰富资源。其创建基于Character.AI平台的用户交互数据，通过部分合成与开源处理，推动了开放科学在对话生成领域的应用，对提升模型的适应性与多样性具有显著影响力。

当前挑战

PIPPA数据集致力于解决角色扮演对话生成中的挑战，包括如何准确模拟多样化人物性格与复杂情境，以及确保生成内容在开放域中的安全性与可控性。在构建过程中，团队面临数据质量与隐私保护的双重考验：需从海量社区提交中筛选有效对话并征得用户同意，同时细致处理个人敏感信息以避免泄露风险。此外，数据格式的异构性，如Character.AI特有标记的预处理，以及去除重复对话与短交互以提升数据集纯净度，均构成了技术实施上的关键难点。

常用场景

经典使用场景

在对话系统与角色扮演领域，PIPPA数据集作为一项重要资源，其经典使用场景聚焦于训练和优化大型语言模型在开放域对话中的表现。该数据集通过模拟真实用户与AI角色之间的互动，涵盖了多样化的对话主题和角色设定，为研究者提供了丰富的上下文环境。这使得模型能够学习到自然语言中的细微差别和情感表达，从而在生成式对话任务中展现出更高的适应性和创造力。

解决学术问题

PIPPA数据集有效解决了对话生成研究中数据稀缺与多样性不足的学术难题。通过提供超过百万行对话和上千种独特角色设定，它支持了对模型个性化响应能力、角色一致性保持以及长对话连贯性等关键问题的探索。该数据集的部分合成特性，结合社区贡献的真实互动日志，为研究对话系统的伦理边界、内容安全过滤机制以及NSFW内容生成控制提供了实证基础，推动了人机交互领域的理论深化。

实际应用

在实际应用层面，PIPPA数据集被广泛用于开发定制化聊天机器人和虚拟角色助手。例如，在娱乐、教育或心理健康支持场景中，基于该数据集训练的模型能够模拟特定人物或虚构角色的语言风格，提供沉浸式互动体验。同时，其NSFW内容警示也促使开发者在部署前加强内容审核与安全机制，确保技术应用符合社会规范与用户需求。

数据集最近研究