PsychEval
收藏PsychEval 数据集概述
数据集简介
PsychEval 是一个全面的基准测试,旨在评估大型语言模型在心理咨询背景下的能力。该基准测试强调纵向、多会话的咨询过程和多疗法能力,与现有专注于单轮交互或单次会话评估的基准测试不同。
核心特征
- 多会话连续性:包含每个案例6-10次会话的完整咨询周期,分为三个不同阶段:
- 案例概念化:信息收集与关系建立。
- 核心干预:干预与问题解决。
- 巩固:巩固与终止。
- 多疗法覆盖:支持跨不同治疗方法(如认知行为疗法、焦点解决短期治疗)以及整合疗法的评估,要求人工智能适应其策略。
- 高真实性与细粒度:
- 标注了广泛的专业技能。
- 包含677项元技能和4577项原子技能。
- 关注记忆连续性、动态目标跟踪和纵向规划。
- 可靠评估:引入了多智能体评估框架,涉及来访者模拟器(用于真实角色扮演)和督导智能体(用于专业评分)。
数据集构建
该数据集模拟了完整的咨询生命周期。每个案例的结构都反映了现实世界治疗过程的进展。
评估框架
建立了一个利用18个疗法特定及共享指标(如用于联盟的工作联盟量表、用于认知行为疗法能力的认知治疗评定量表、用于症状减轻的症状自评量表-90)的整体评估系统。结果表明,PsychEval 实现了前所未有的临床保真度,在技术依从性(如认知治疗评定量表:9.19分)方面几乎使先前模型的得分翻倍。
运行评估
- 主评估脚本:执行多维评估,使用命令
python3 -m eval.manager.evaluation_mutil。 - 配置指标:可通过修改配置文件中的
method_cls列表来自定义评估指标。 - 基线复现与数据转换:要复现其他论文的结果,需先转换数据格式以确保兼容性。
- 步骤1:运行专用转换脚本
python3 manager/Simpsydial/convert_simpsydial.py。 - 步骤2:转换后,运行步骤1中提到的主评估脚本。
- 步骤1:运行专用转换脚本
引用
如果研究中使用 PsychEval,请引用论文: bibtex @inproceedings{pan2026psycheval, title={PsychEval: A Multi-Session and Multi-Therapy Benchmark for High-Realism AI Psychological Counselor}, author={Qianjun Pan and Junyi Wang and Jie Zhou and Yutao Yang and Junsong Li and Kaiyin Xu and Yougen Zhou and Yihan Li and Jingyuan Zhao and Qin Chen and Ningning Zhou and Kai Chen and Liang He}, year={2026}, eprint={2601.01802}, archivePrefix={arXiv}, primaryClass={cs.AI}, url={https://arxiv.org/abs/2601.01802}, }

- 1PsychEval: A Multi-Session and Multi-Therapy Benchmark for High-Realism AI Psychological Counselor华东师范大学·计算机科学与技术学院; 上海人工智能实验室; 华东师范大学·心理与认知科学学院 · 2026年



