PsychEval

Name: PsychEval
Creator: 华东师范大学·计算机科学与技术学院; 上海人工智能实验室; 华东师范大学·心理与认知科学学院
Published: 2026-01-08 21:52:50
License: 暂无描述

arXiv2026-01-08 更新2026-01-10 收录

下载链接：

https://github.com/ECNU-ICALK/PsychEval

下载链接

链接失效反馈

官方服务：

资源简介：

PsychEval是由华东师范大学和上海人工智能实验室联合构建的高真实性心理治疗评估基准数据集，涵盖677种元技能和4577种原子技能的专业标注。该数据集包含2000个多样化客户档案，模拟6-10次咨询会话的纵向过程，覆盖五种主要治疗模式和整合疗法。数据来源于真实案例报告，采用三阶段临床流程（案例概念化、核心干预、巩固预防）构建，旨在训练具备记忆连续性、动态目标跟踪能力的AI心理咨询师，并解决多疗法灵活切换和系统性评估的难题。

PsychEval is a high-fidelity psychotherapy evaluation benchmark dataset jointly constructed by East China Normal University and Shanghai AI Laboratory, with professional annotations for 677 meta-skills and 4577 atomic-skills. This dataset contains 2000 diverse client profiles that simulate the longitudinal process of 6 to 10 counseling sessions, covering five major treatment modalities and integrative therapies. The data is sourced from real case reports and built upon a three-stage clinical workflow: case conceptualization, core intervention, and consolidation & prevention. It aims to train AI psychotherapists with memory continuity and dynamic goal tracking capabilities, and solve the challenges of flexible switching between multiple therapies and systematic evaluation.

提供机构：

华东师范大学·计算机科学与技术学院; 上海人工智能实验室; 华东师范大学·心理与认知科学学院

创建时间：

2026-01-05

原始信息汇总

PsychEval 数据集概述

数据集简介

PsychEval 是一个全面的基准测试，旨在评估大型语言模型在心理咨询背景下的能力。该基准测试强调纵向、多会话的咨询过程和多疗法能力，与现有专注于单轮交互或单次会话评估的基准测试不同。

核心特征

多会话连续性：包含每个案例6-10次会话的完整咨询周期，分为三个不同阶段：
1. 案例概念化：信息收集与关系建立。
2. 核心干预：干预与问题解决。
3. 巩固：巩固与终止。
多疗法覆盖：支持跨不同治疗方法（如认知行为疗法、焦点解决短期治疗）以及整合疗法的评估，要求人工智能适应其策略。
高真实性与细粒度：
- 标注了广泛的专业技能。
- 包含677项元技能和4577项原子技能。
- 关注记忆连续性、动态目标跟踪和纵向规划。
可靠评估：引入了多智能体评估框架，涉及来访者模拟器（用于真实角色扮演）和督导智能体（用于专业评分）。

数据集构建

该数据集模拟了完整的咨询生命周期。每个案例的结构都反映了现实世界治疗过程的进展。

评估框架

建立了一个利用18个疗法特定及共享指标（如用于联盟的工作联盟量表、用于认知行为疗法能力的认知治疗评定量表、用于症状减轻的症状自评量表-90）的整体评估系统。结果表明，PsychEval 实现了前所未有的临床保真度，在技术依从性（如认知治疗评定量表：9.19分）方面几乎使先前模型的得分翻倍。

运行评估

主评估脚本：执行多维评估，使用命令 python3 -m eval.manager.evaluation_mutil。
配置指标：可通过修改配置文件中的 method_cls 列表来自定义评估指标。
基线复现与数据转换：要复现其他论文的结果，需先转换数据格式以确保兼容性。
- 步骤1：运行专用转换脚本 python3 manager/Simpsydial/convert_simpsydial.py。
- 步骤2：转换后，运行步骤1中提到的主评估脚本。

引用

如果研究中使用 PsychEval，请引用论文： bibtex @inproceedings{pan2026psycheval, title={PsychEval: A Multi-Session and Multi-Therapy Benchmark for High-Realism AI Psychological Counselor}, author={Qianjun Pan and Junyi Wang and Jie Zhou and Yutao Yang and Junsong Li and Kaiyin Xu and Yougen Zhou and Yihan Li and Jingyuan Zhao and Qin Chen and Ningning Zhou and Kai Chen and Liang He}, year={2026}, eprint={2601.01802}, archivePrefix={arXiv}, primaryClass={cs.AI}, url={https://arxiv.org/abs/2601.01802}, }

搜集汇总

数据集介绍

构建方式

在心理智能评估领域，PsychEval数据集的构建体现了对临床真实性的高度追求。其构建流程始于从《心理月刊》等权威心理学期刊中精心筛选并清洗369份真实的临床案例报告，这些报告覆盖了认知行为、心理动力学等五大主流疗法及整合疗法。为确保生成对话的临床保真度，研究团队设计了一套结构化的提取流程，将原始报告转化为包含来访者画像、治疗计划、对话特征与治疗技能四大模块的标准化模式。随后，通过一个技能引导的生成管道，结合从粗到细的技能检索机制与思维链推理，模拟咨询师在会谈前、中、后的完整认知过程，最终生成了跨越6至10个会话、平均每个案例包含7.6次会谈的高保真多阶段对话序列。

特点

PsychEval的核心特征在于其前所未有的纵向深度与理论广度。该数据集模拟了真实心理咨询从个案概念化、核心干预到巩固预防的三阶段完整临床流程，打破了现有基准大多局限于单次会话的局限。其理论覆盖极具包容性，不仅包含五种明确的治疗流派，还引入了整合疗法，为训练具备跨流派适应能力的AI咨询师提供了可能。数据集内嵌了由677项元技能和4577项原子技能构成的层次化技能分类体系，为AI模型的临床推理提供了从战略意图到具体言行的精细脚手架。此外，其构建的2000余个多样化来访者画像，确保了评估场景的丰富性与代表性。

使用方法

PsychEval数据集主要服务于AI心理顾问的评估、训练与进化研究。在评估层面，研究者可利用其内置的、包含18项指标的整体评估框架，从咨询师层面的临床熟练度和来访者层面的模拟保真度两个维度，对AI模型进行多疗法、多会话的系统性评测，超越传统词汇重叠指标的局限。在训练层面，该数据集可作为高质量的监督微调数据源，其层次化技能标注为模型提供了明确的学习目标。更为关键的是，PsychEval被设计为一个高保真的强化学习环境，研究者可以基于其模拟的、动态演变的来访者状态与丰富的奖励函数，对AI智能体进行自我进化式训练，从而推动开发具有临床责任感与长期适应性的心理顾问系统。

背景与挑战

背景概述

PsychEval是由华东师范大学计算机科学与技术学院、上海人工智能实验室及心理学与认知科学学院的研究团队于2026年发布的一个多会话、多疗法的高真实性人工智能心理咨询师评估基准。该数据集旨在应对从通用聊天机器人向临床可靠AI咨询师转型过程中的核心研究问题，即如何训练具备高度真实性、多疗法适应能力且可系统评估的AI心理咨询师。其构建基于369份来自权威心理学期刊的真实临床案例报告，覆盖认知行为、心理动力学、行为主义、人本-存在主义及后现代主义五种主要疗法以及一种整合疗法，并模拟了包含案例概念化、核心干预和巩固预防三阶段的完整咨询流程。PsychEval通过引入包含677个元技能和4577个原子技能的层次化技能分类体系，以及涵盖18个咨询师层面和来访者层面指标的全方位评估框架，显著提升了AI心理咨询研究的临床保真度与评估严谨性，为计算精神病学领域提供了关键的基准设施和强化学习环境。

当前挑战

PsychEval致力于解决的领域核心挑战在于如何使AI系统胜任真实世界中动态、纵向的心理咨询任务，这超越了传统的单轮对话或静态问答模式。具体挑战包括：第一，实现高度真实的AI咨询师，这要求模型具备跨会话的记忆连续性、自适应推理和长期目标追踪能力，以模拟咨询关系中治疗联盟的建立与演进。第二，训练掌握多疗法的AI咨询师，现有模型通常局限于单一疗法，而复杂案例常需在认知行为、心理动力学等不同理论取向间灵活切换与整合策略。在构建过程中，研究团队面临的主要挑战在于如何从静态的临床案例报告中高质量地重构出具有时间动态性和理论深度的多轮对话，同时避免大型语言模型常见的信息幻觉与临床细节丢失。此外，建立超越表面词汇重叠、能精准量化治疗质量与伦理安全性的系统评估体系，亦是该数据集需要克服的关键难题。

常用场景

经典使用场景

在人工智能与心理健康交叉领域，PsychEval数据集为训练和评估高真实感AI心理咨询师提供了核心基准。该数据集通过模拟真实咨询中多会话、多疗法的纵向过程，为研究者构建具备记忆连续性、动态目标追踪和适应性推理能力的AI系统奠定了数据基础。其经典应用场景集中于开发能够遵循三阶段临床框架（案例概念化、核心干预、巩固预防）的智能体，这些智能体需在6至10次会话中维持治疗联盟的连贯性，并灵活运用认知行为、心理动力学等五种主要疗法及整合疗法应对复杂个案。

衍生相关工作

PsychEval的推出催生了一系列围绕多会话、多疗法AI心理咨询的研究工作。其层次化技能标注体系和三阶段临床框架为后续模型如SouLLMate的双记忆系统、Chain-of-interaction的迭代交互建模提供了结构化基础。该数据集的多疗法集成设计启发了对单一疗法局限性的超越，促使研究转向如HealMe的认知重构与PsyLLM的诊断推理相结合的混合方法。其评估范式亦影响了后续研究对治疗联盟量化、纵向症状追踪的重视，推动了如QUEST标准化评分和Patient-Ψ模拟患者等评估方法的发展。

数据集最近研究