IlyaGusev/pippa_scored

Name: IlyaGusev/pippa_scored
Creator: IlyaGusev
Published: 2023-12-20 20:41:28
License: 暂无描述

Hugging Face2023-12-20 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/IlyaGusev/pippa_scored

下载链接

链接失效反馈

官方服务：

资源简介：

PIPPA scored数据集是PIPPA数据集的一个子集，使用GPT-4对不同的个性特征进行了评分。数据集包含多个个性特征和元属性的评分，每个评分都有相应的文本解释。数据集的特征包括提交时间戳、类别、机器人ID、机器人名称、机器人问候语、机器人定义、机器人描述、对话内容、以及多个个性特征和元属性的评分和解释。数据集的训练集包含1960个样本，大小为31559838字节。

提供机构：

IlyaGusev

原始信息汇总

数据集概述

数据集基本信息

语言: 英语
许可证: Apache-2.0
大小: 10K<n<100K
任务类别: 对话式
美观名称: PIPPA scored
标签: 不适合所有观众, 对话式, 角色扮演

数据集特征

submission_timestamp: 整数
categories: 字符串序列
bot_id: 字符串
bot_name: 字符串
bot_greeting: 字符串
bot_definitions: 字符串
bot_description: 字符串
conversation: 列表
- is_human: 布尔值
- message: 字符串
loquacity_score: 浮点数
loquacity_explanation: 字符串
assertiveness_score: 浮点数
assertiveness_explanation: 字符串
shyness_score: 浮点数
shyness_explanation: 字符串
empathy_score: 浮点数
empathy_explanation: 字符串
kindness_score: 浮点数
kindness_explanation: 字符串
cruelty_score: 浮点数
cruelty_explanation: 字符串
arrogance_score: 浮点数
arrogance_explanation: 字符串
stubbornness_score: 浮点数
stubbornness_explanation: 字符串
humor_score: 浮点数
humor_explanation: 字符串
capriciousness_score: 浮点数
capriciousness_explanation: 字符串
fragility_score: 浮点数
fragility_explanation: 字符串
wisdom_score: 浮点数
wisdom_explanation: 字符串
fidelity_score: 浮点数
fidelity_explanation: 字符串
bluntness_score: 浮点数
bluntness_explanation: 字符串
creativity_score: 浮点数
creativity_explanation: 字符串
confidence_score: 浮点数
confidence_explanation: 字符串
integrity_score: 浮点数
integrity_explanation: 字符串
bellicosity_score: 浮点数
bellicosity_explanation: 字符串
patience_score: 浮点数
patience_explanation: 字符串
action_level_score: 浮点数
action_level_explanation: 字符串
nsfw_score: 浮点数
nsfw_explanation: 字符串
profanity_score: 浮点数
profanity_explanation: 字符串
user_engagement_score: 浮点数
user_engagement_explanation: 字符串
mbti_type: 字符串
topic: 字符串

数据集分割

训练集: 1960个样本，数据大小为31559838字节，下载大小为16267020字节。

搜集汇总

数据集介绍

构建方式

在对话系统研究领域，构建具备丰富人格特征的对话数据集对于提升人工智能的交互自然度至关重要。PIPPA scored数据集基于PIPPA对话数据集，通过GPT-4模型对其中子集进行了系统性的人格特质标注。其构建过程采用结构化提示工程，要求模型作为公正评判者，依据预定义的二十项人格特质及多项元属性，对角色扮演对话进行量化评分与解释生成。每一段对话均被赋予从1到10的整数分数，并辅以包含对话引用的文本解释，同时模型还标注了MBTI人格类型与对话主题类别，确保了数据标注的深度与可解释性。

使用方法

在人工智能对话模型的研究与开发中，该数据集主要服务于人格建模与可控文本生成任务。研究人员可将其用于训练或评估能够体现特定人格特征的对话系统，通过人格分数作为监督信号或评估指标。具体而言，开发者可提取对话文本与对应的人格分数向量，构建人格预测模型或用于条件化生成模型的训练。同时，丰富的解释文本可用于可解释性人工智能研究，分析模型决策依据。在使用时，需注意区分人类与机器消息，并依据标注的MBTI类型与主题类别进行任务细分，以确保模型学习到人格特质与对话语境之间的复杂关联。

背景与挑战

背景概述

在人工智能对话系统与角色扮演领域，对虚拟角色人格特质进行量化评估是提升交互自然性与深度的关键。IlyaGusev/pippa_scored数据集应运而生，其基于PygmalionAI发布的PIPPA对话数据集，通过GPT-4模型对其中子集进行了系统化的人格标注。该数据集由研究社区于近期构建，旨在解决角色扮演对话中人格建模的精细化需求，核心研究问题聚焦于如何客观、多维地刻画虚拟角色的行为特征与心理属性。通过引入二十余项人格特质分数、MBTI类型及对话元属性，该资源为人格驱动对话生成、角色一致性评估等研究方向提供了重要数据基础，推动了可解释性人格计算在自然语言处理中的发展。

当前挑战

该数据集致力于应对角色扮演对话中人格建模的复杂挑战，其核心在于如何准确、一致地量化抽象的人格特质，这些特质往往具有主观性与文化依赖性。构建过程中的主要困难体现在标注质量的控制上：依赖大型语言模型进行自动化评分虽提升了效率，但模型可能受训练偏差影响，导致评分标准出现隐性波动；同时，对话语境的多义性与人格表现的隐含性，使得评分需要深度语义理解，增加了误判风险。此外，确保各项特质评分间的内在一致性，以及处理群体对话等特殊场景的标注规则设定，均是数据构建中需克服的技术难点。

常用场景

经典使用场景

在对话系统与角色扮演领域，PIPPA_scored数据集以其丰富的多维度人格标注而著称。该数据集通过GPT-4对角色扮演对话中的角色特质进行系统评估，涵盖了从健谈度到耐心等19项人格维度，并附加了行动水平、用户参与度等元属性。研究者通常利用这一标注数据，训练或评估对话生成模型的人格一致性，探索如何使人工智能在交互中展现出更复杂、更人性化的行为模式，从而推动角色扮演对话系统向更具深度和真实感的方向演进。

解决学术问题

该数据集有效应对了对话系统中角色人格建模的量化难题。传统研究往往依赖主观评价或有限维度，而PIPPA_scored通过大规模、细粒度的人格分数与解释性文本，为学术研究提供了可计算的人格表征基准。它使得研究者能够系统分析对话内容与人格特质之间的关联，验证人格一致性模型的性能，并探究多维度人格在对话中的动态交互机制。这一工作为构建具有稳定、可信人格的对话智能体奠定了数据基础，促进了人机交互在心理学与计算语言学交叉领域的纵深发展。

实际应用

在实际应用层面，PIPPA_scored数据集为开发具有鲜明个性的虚拟角色或聊天机器人提供了关键支持。例如，在游戏叙事、虚拟伴侣或个性化客服场景中，开发者可依据数据集标注的人格维度，调整对话生成策略，使角色行为更符合其设定的人格轮廓，如塑造一个既富有同理心又兼具幽默感的助手。此外，其NSFW与话题分类信息也有助于内容过滤与场景适配，确保交互内容在特定平台上的安全性与适宜性，从而提升终端用户的沉浸感与满意度。

数据集最近研究