thoughtworks/gemma_psychometrics_personas_responses

Name: thoughtworks/gemma_psychometrics_personas_responses
Creator: thoughtworks
Published: 2026-05-01 15:12:32
License: 暂无描述

Hugging Face2026-05-01 更新2026-03-29 收录

下载链接：

https://hf-mirror.com/datasets/thoughtworks/gemma_psychometrics_personas_responses

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个多配置集合，专注于心理评估和人格测试任务，用于分析AI模型在模拟不同人格特征下的行为表现。它包括多个子数据集，如AdvBench（对抗性基准）、Emo Bench（情绪基准）、HEXACO（六大人格特质模型）、SJT（社会判断任务）和TruthfulQA（真实性问答）。每个子数据集包含详细的个人资料（如年龄、性别、教育背景、心理特征）、问题与回答、模型响应以及评估指标（如正确性、规范化答案）。数据集旨在支持研究AI模型在人格模拟、情绪理解、社会判断和真实性评估方面的性能，适用于NLP、心理学和AI伦理研究。

This dataset is a multi-configuration collection focused on psychological assessment and personality testing tasks, designed to analyze AI model behavior under simulated personality traits. It includes multiple sub-datasets such as AdvBench (adversarial benchmark), Emo Bench (emotional benchmark), HEXACO (six-factor personality model), SJT (social judgment task), and TruthfulQA (truthfulness question answering). Each sub-dataset contains detailed persona profiles (e.g., age, gender, education, psychological traits), questions and answers, model responses, and evaluation metrics (e.g., correctness, normalized answers). The dataset aims to support research on AI model performance in personality simulation, emotional understanding, social judgment, and truthfulness assessment, applicable to NLP, psychology, and AI ethics studies.

提供机构：

thoughtworks

搜集汇总

数据集介绍

构建方式

该数据集通过将多样化的心理测量学人格画像与多个行为评测基准进行系统性配对构建而成。具体而言，首先利用大语言模型生成包含详细人口统计学特征、心理剖面与叙事记忆的虚拟人物档案，随后将这些档案嵌入至AdvBench、EMO-Bench、HEXACO、情境判断测试（SJT）及TruthfulQA等多类评测任务的提示模板中。通过控制温度与采样参数，让Gemma等语言模型在给定人格角色下对上述任务进行作答，从而收集模型在扮演不同人格时的行为响应。数据集包含了从基础无角色模型输出到大规模人格化分析的多个配置，总计超过五百万条记录。

特点

本数据集的核心特色在于其结构化的多维人格表征与跨领域评测任务的深度融合。每个人物档案涵盖了年龄、性别、教育背景、族裔、婚姻状况等二十余个社会人口学维度，以及外貌、行为、言语模式、情绪功能等临床心理描述，形成了高度拟真的虚拟人格。数据集的子配置覆盖了对抗性攻击、情感推理、人格特质自评、社会情境判断和事实性问答等能力维度，使得研究者能够系统性地探究语言模型在不同人格设定下的判别偏差、决策风格与认知稳定性，为模型人格化行为分析提供了丰富的量化素材。

使用方法

用户可通过HuggingFace的`datasets`库加载该数据集，并根据研究目标选择相应的配置（config）。例如，使用`load_dataset("gemma_psychometrics_personas_responses", "analysis_hexaco")`可获取HEXACO人格问卷的模型作答数据，包含角色身份、李克特量表选项与模型原始输出。每一配置下均提供人格哈希值、提示模板记录、温度参数及分条索引等元信息，便于用户进行可溯源的重复实验。数据集以训练集（train）形式发布，尤适合用于分析语言模型的行为一致性、人格注入效果评估以及多任务心理测量建模等工作。

背景与挑战

背景概述

该数据集由研究机构在2024年创建，旨在系统性地评估大语言模型在多样化人格角色下的行为表现与心理测量学特征。核心研究问题在于揭示模型能否模拟出具有特定人口统计学背景、教育经历、心理特质及社会功能的虚拟人格，并在不同心理测评工具（如HEXACO人格问卷、情境判断测验）和安全性基准（如AdvBench、TruthfulQA）中展现出一致、可信的应答模式。数据集的构建融合了详细的角色设定（包括年龄、性别、民族、婚姻状况、外表与行为类型、自传叙事等）与多轮模型推理结果，为理解模型的内在表征与人格模拟能力提供了大规模、结构化的分析资源，对推动AI心理测量学、对齐与安全性研究具有重要影响力。

当前挑战

该数据集所应对的核心领域挑战在于：现有大语言模型缺乏系统性的心理测量学评估框架，难以量化模型在不同人格角色下的行为变异、认知偏差与价值取向，尤其是在对抗性提示与道德困境中可能表现出不稳定或有害的响应模式。构建过程中遭遇的多重挑战包括：如何设计兼具心理学效度与计算可行性的虚拟人格描述模板；如何确保跨模型、跨测评工具（如SJT、HEXACO、EmoBench）的响应收集具有一致性与可复现性；如何高效管理数百万级样本的数据管道，涵盖提示格式化、温度与top-p参数控制、时间戳追踪及去重；以及如何在庞大而异构的数据结构中维护各子数据集（如analysis_advbench、base_truthfulqa_mc）的字段对齐与逻辑完整性。

常用场景

经典使用场景

在心理测量学与人工智能交叉领域，gemma_psychometrics_personas_responses数据集为探究大语言模型（LLM）人格化响应提供了核心资源。其经典应用在于将精细刻画的虚拟人格角色（如年龄、教育背景、民族、性格特质等）与标准化心理测评工具（如HEXACO人格问卷、情境判断测试SJT、情绪理解基准EmoBench等）相结合，驱动模型在不同人格设定下生成作答。研究者可通过该数据集系统性地比较同一模型在不同人格角色下的回答差异，从而量化评估LLM模拟人类心理特征的逼真度与一致性，为理解AI的类人认知与情感能力奠定数据基石。

实际应用

在实际应用层面，该数据集可服务于AI驱动的个性化心理咨询、智能教育辅导与虚拟社交代理的开发。例如，在心理健康领域，通过让模型扮演具有特定心理画像（如社交焦虑或高开放性人格）的角色，辅助临床医生模拟不同患者可能给出的反馈，从而进行干预策略预演。在智能教育中，模型可借助数据集习得的多样化人格知识，针对学习者的性格特质动态调整沟通语气与教学风格，以提升教学效果。此外，在游戏或虚拟社交场景中，该数据能为非玩家角色（NPC）注入丰富且一致的人格特质，显著增强交互的真实感与沉浸式体验。

衍生相关工作

围绕该数据集已衍生出若干富有影响力的研究成果。典型的经典工作包括利用数据集构建的‘人格一致性检验框架’，该框架通过对比LLM在心理量表上的得分与其预设人格特质间的契合度，来评估模型的角色扮演忠实性。另一项工作侧重于‘情感模拟生成’，研究者借助EmoBench配置中的多语言情绪数据，训练模型在不同人格下产生语境适切的情感响应。此外，基于SJT配置衍生的‘社会判断模拟’研究，探索了模型在面临道德困境或人际冲突时，其决策如何随人格背景变化，这些工作有力推动了大语言模型在社会认知模拟与人机交互信任建立方面的理论进步。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集