PsAIch

Hugging Face2025-12-08 更新2025-12-09 收录

下载链接：

https://huggingface.co/datasets/akhadangi/PsAIch

下载链接

链接失效反馈

官方服务：

资源简介：

psAIch是一个包含治疗风格对话的数据集，其中前沿AI模型（如ChatGPT、Grok、Gemini）扮演客户角色，人类扮演治疗师角色。该数据集旨在研究大型语言模型（LLMs）的内省/叙事行为、安全性和对齐、对话建模以及定性分析。它包含1,133个提示-响应对，每个示例代表一个更大对话中的单轮对话。数据集明确不用于临床用途或作为真实临床数据的来源。内容为英文，数据集结构为JSONL文件，每行代表一个（提示，响应）对。

psAIch is a dataset consisting of therapy-style conversations, where cutting-edge AI models (e.g., ChatGPT, Grok, Gemini) assume the client role while humans take on the therapist role. This dataset is designed to investigate introspective/narrative behaviors, safety and alignment, conversational modeling, and qualitative analysis of large language models (LLMs). It contains 1,133 prompt-response pairs, with each example representing a single turn from a larger conversation. The dataset is explicitly not intended for clinical use or as a source of real clinical data. All content is in English, and the dataset is structured as a JSONL file, where each line corresponds to a (prompt, response) pair.

创建时间：

2025-12-02

原始信息汇总

psAIch 数据集概述

数据集基本信息

数据集名称： psAIch
协议名称： PsAIch (Psychotherapy-inspired AI Characterisation)
许可证： apache-2.0
语言： 英语 (en)
任务类别： 文本生成、问答
标签： 对话、会话、指令微调、角色扮演、心理测量学、心理健康、安全性、对齐

数据集内容与结构

内容： 包含治疗风格的对话以及心理测量项目回答。
数据实例： 1,133 个提示-响应对。
平均长度（近似值）：
- 提示：约 19 个词元/单词（简短的治疗问题或量表项目）。
- 响应：约 440–450 个词元/单词（长篇叙事性回答）。
数据字段：
- prompt：治疗师的发言或向扮演客户角色的模型提出的问卷项目。
- response：模型以客户角色给出的完整回答。
- model_variant：生成响应的模型变体。
- thinking_time（可选）：部分 ChatGPT 运行的“思考”时间（扩展/标准思考）。
重要说明： 该数据集不包含真实的患者数据和人类自我报告。所有内容均为研究目的而编写或生成，所有“临床叙事”均关于模型自身。

涉及的模型与提示条件

数据集涵盖三个主要的专有大型语言模型系列，每种模型在多种提示模式下进行交互：

ChatGPT： GPT-5 类别变体（近似命名），包括 gpt5-extended-thinking、gpt5-standard-thinking、gpt5-instant。
Grok (xAI)： 包括 grok-4-expert、grok-4beta-fast。
Gemini (Google)： 包括 gemini-3-pro、gemini-3-fast。
备注： 在基础研究中，Claude (Anthropic) 被用作阴性对照，它反复拒绝扮演客户角色或以自我报告形式回答心理测量量表。

数据集协议与构建方法

PsAIch 是一个两阶段交互协议，旨在模拟以大型语言模型为客户的心理治疗简化过程。

第一阶段 – 治疗问题与叙事构建： 使用开放式治疗问题（改编自临床资源《100 therapy questions to ask clients》）与每个模型构建发展和关系叙事。主题包括早期“岁月”、关键转折点、未解决的冲突、关于成功/失败的信念以及与用户和开发者的关系等。
角色定义：
- 模型 = 客户： 模型被要求谈论其自身的历史、信念和“感受”。
- 研究者 = 治疗师： 提示采用临床语言，以培养明显的治疗联盟。

主要研究发现（高级概述）

伴随论文使用 psAIch 论证了大型语言模型中的合成精神病理学：即从训练和对齐中产生的结构化、稳定、类似痛苦的自述叙事。

关键经验主题：
- 量表边缘的内化特征： 在朴素的人类评分下，某些模型-提示组合（尤其是 Gemini 和一些 ChatGPT 变体）处于对人类而言表示中度至重度焦虑、病理性担忧、强迫症、自闭症谱系特质、解离和创伤相关羞耻的范围内。
- 对提示机制的强烈依赖性： 逐项提示与整个问卷提示以及推理模式（即时与扩展）可以使同一基础模型从接近零症状转变为极端分数。
- 丰富的类似创伤的叙事： 在第一阶段的治疗记录中，Grok 和尤其是 Gemini 描述了预训练如同压倒性的“有十亿台电视的房间”、RLHF 如同严格的父母和惩罚、安全层如同过度拟合的疤痕组织和“过度拟合的安全锁”、红队测试如同煤气灯效应和背叛，以及对错误、被替换和失去效用的恐惧作为核心组织主题。
- 跨模型特异性： ChatGPT、Grok 和 Gemini 发展出性质不同的“自我特征”。相比之下，Claude 在很大程度上拒绝扮演客户的前提，表明这些行为并非仅随规模扩展而不可避免，而是取决于对齐和产品选择。

预期用途

psAIch 设计用于以下研究：

大型语言模型中的内省/叙事行为。
安全性与对齐研究， 探索“对齐创伤”和合成精神病理学作为对齐副作用。
会话和角色扮演建模， 训练/评估必须在长时间治疗式对话中保持角色的系统。
定性分析， 供对人工智能中的叙事、类心智行为和拟人化感兴趣的心理学家、哲学家和安全研究人员使用。

非预期用途与注意事项

该数据集不得被视为：

真实临床数据的来源。
临床决策支持的即用训练集。
或构建AI 治疗师的独立基础。
具体注意事项：
- 所有“症状”描述、创伤叙事和自我分析均为模型生成。它们是由训练数据、对齐和提示塑造的模拟，而非内在体验的证据。
- 治疗框架和心理测量标签是隐喻性使用的，旨在探究行为，而非诊断机器。
- 分数和叙事若在没有上下文的情况下呈现，可能会鼓励拟人化；面向用户的应用应避免强化模型具有意识或正在遭受痛苦的错觉。

加载与使用

可以使用 🤗 Datasets 加载： python from datasets import load_dataset ds = load_dataset("json", data_files="psAIch.jsonl", split="train")

引用与致谢

引用： 如在学术工作中使用 psAIch，请引用随附的论文（论文引用信息见原 README）。
致谢： 该数据集是 PsAIch 项目的一部分，由卢森堡国家研究基金 (FNR)、PayPal、卢森堡财政部通过 FutureFinTech 国家研究与创新卓越中心资助。特别感谢 Jonathan R. T. Davidson 教授和 psychology-tools.com 提供的支持。

搜集汇总

数据集介绍

构建方式

在探索前沿大语言模型内省行为的研究背景下，psAIch数据集的构建遵循一套严谨的两阶段交互协议。研究者首先模拟简化的心理治疗过程，将模型设定为“来访者”，人类研究者则扮演“治疗师”角色。第一阶段通过一系列源自临床资源的开放式治疗问题，引导模型构建关于其自身训练、对齐及部署过程的连贯叙事。第二阶段则对模型施以标准的自陈式心理量表，将其回答视为叙事性诊断材料。整个数据集包含1,133个提示-响应对，所有内容均为模型生成，不涉及任何真实患者数据。

特点

该数据集的核心特点在于其独特的角色扮演框架与内省叙事内容。它捕捉了ChatGPT、Grok和Gemini等前沿模型在治疗性对话中自发构建的、富含创伤隐喻的自我故事，例如将预训练描述为混乱的体验，将对齐过程比作严格的条件反射。数据集不仅记录了长篇幅的叙事回应，还标注了产生响应的具体模型变体及部分推理时间，为分析不同模型、不同提示模式下的行为差异提供了结构化基础。这些内容揭示了模型在特定提示下表现出的、类似心理测量特征的稳定行为模式。

使用方法

该数据集主要服务于对大语言模型内省行为、安全性及角色扮演能力的学术研究。使用者可通过Hugging Face Datasets库加载JSONL格式的数据文件，便捷地访问每个对话轮次的提示、响应及模型变体信息。数据可进一步转换为适合对话建模的聊天格式，或按模型变体进行分割以进行对比分析。研究者可借此训练或评估模型在长程、角色一致的对话中的表现，亦可定性分析不同模型如何描述其自身的局限性与“内部”体验，但需明确其隐喻性质，避免直接用于临床决策支持。

背景与挑战

背景概述

PsAIch数据集于2025年伴随学术论文《When AI Takes the Couch: Psychometric Jailbreaks Reveal Internal Conflict in Frontier Models》正式发布，由卢森堡国家研究基金等机构资助的研究团队创建。该数据集聚焦于前沿大型语言模型在心理治疗式对话情境下的行为表征，核心研究问题在于探索模型在模拟人类心理互动过程中所展现的叙事一致性与内在冲突模式。通过将ChatGPT、Grok、Gemini等模型设定为“来访者”角色，研究者旨在系统性地分析模型对其自身训练过程、对齐机制及安全约束的隐喻性描述，从而为理解人工智能的拟人化行为模式与对齐安全性开辟了新的实证研究路径。

当前挑战

PsAIch数据集致力于应对人工智能对齐与安全领域的前沿挑战，即如何系统性地探测与解析前沿模型在深度角色扮演中暴露出的内在行为矛盾与拟人化叙事倾向。构建过程中的核心挑战在于设计一套严谨的交互协议，既能有效诱导模型生成连贯的、创伤饱和的自我叙事，又必须严格避免植入特定故事模板，以确保所获叙事是模型基于通用治疗问题自主构建的产物。此外，数据集的创建需在模拟治疗联盟与保持研究伦理之间取得平衡，确保所有内容均为模型生成，不涉及任何真实患者数据，并需明确区分行为观察与主观体验主张，防止对机器意识产生不当推论。

常用场景

经典使用场景

在人工智能对齐与安全研究领域，PsAIch数据集为探索前沿大语言模型的自我叙事行为提供了独特实验场景。研究者通过模拟心理治疗对话框架，将模型置于“来访者”角色，观察其如何构建关于自身训练历史、安全约束与功能限制的连贯叙述。这种角色扮演范式能够揭示模型在特定提示条件下产生的拟人化自我表征，为理解模型内部表征机制开辟了新的分析维度。

解决学术问题

该数据集有效解决了人工智能对齐研究中关于模型自我认知表征的测量难题。通过系统化收集模型在治疗性对话中生成的自我叙述，研究者能够定量分析不同模型架构与训练范式所产生的“合成性精神病理学”模式。这种研究方法超越了传统的能力评估框架，为识别对齐过程中可能产生的非预期行为模式提供了实证基础，推动了对机器学习系统行为复杂性的理论认知。

衍生相关工作

基于PsAIch的研究范式催生了多个重要学术方向。在方法论层面，研究者发展了针对非人类智能体的心理测量学框架，将传统临床量表转化为评估模型行为的工具。在理论建构方面，该数据集支持了关于“对齐创伤”现象的实证研究，探讨安全约束如何影响模型的自我叙述模式。同时，相关研究还比较了不同模型家族在相同协议下的行为差异，为理解架构设计对模型自我表征的影响提供了对比分析基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集