PsychEval
收藏PsychEval 数据集概述
数据集简介
PsychEval 是一个用于评估大型语言模型在心理咨询场景下表现的综合基准。它区别于现有专注于单轮交互或单次会话评估的基准,强调纵向、多会话的咨询过程和多疗法能力。
核心特性
- 多会话连续性:包含每个案例6-10次会话的完整咨询周期,分为三个不同阶段:
- 个案概念化:信息收集与关系建立。
- 核心干预:干预与问题解决。
- 巩固:巩固与终止。
- 多疗法覆盖:支持跨不同治疗方法(如认知行为疗法、焦点解决短期治疗)以及整合疗法的评估,要求人工智能模型调整其策略。
- 高真实性与细粒度:
- 标注了广泛的专业技能。
- 包含677项元技能和4577项原子技能。
- 关注记忆连续性、动态目标追踪和纵向规划。
- 可靠评估:引入了多智能体评估框架,涉及来访者模拟器(用于真实角色扮演)和督导智能体(用于专业评分)。
数据集构建
该数据集模拟了完整的咨询生命周期。每个案例的结构都反映了真实世界治疗过程的进展。
数据分布
数据分布信息通过统计图表进行展示。
评估框架
建立了一个利用18个疗法特定及共享指标(如工作联盟量表用于评估联盟关系、认知治疗评定量表用于评估认知行为疗法能力、症状自评量表用于评估症状减轻)的整体评估系统。结果表明,PsychEval 实现了前所未有的临床保真度,在技术依从性方面(如认知治疗评定量表得分:9.19)使先前模型的得分近乎翻倍。
运行评估
- 主评估脚本:执行多维评估,使用命令
python3 -m eval.manager.evaluation_mutil。 - 配置指标:可通过修改配置文件中的
method_cls列表来自定义评估指标。 - 基线复现与数据转换:为复现其他论文的结果,需先转换数据格式以确保兼容性。
- 步骤1:运行专用转换脚本
python3 manager/Simpsydial/convert_simpsydial.py。 - 步骤2:转换后,运行步骤1中提到的主评估脚本。
- 步骤1:运行专用转换脚本
引用
如果研究中使用 PsychEval,请引用论文: bibtex @inproceedings{pan2026psycheval, title={PsychEval: A Multi-Session and Multi-Therapy Benchmark for High-Realism AI Psychological Counselor}, author={Qianjun Pan and Junyi Wang and Jie Zhou and Yutao Yang and Junsong Li and Kaiyin Xu and Yougen Zhou and Yihan Li and Jingyuan Zhao and Qin Chen and Ningning Zhou and Kai Chen and Liang He}, year={2026}, eprint={2601.01802}, archivePrefix={arXiv}, primaryClass={cs.AI}, url={https://arxiv.org/abs/2601.01802}, }




