PsychEval

github2026-01-07 更新2026-01-08 收录

下载链接：

https://github.com/ECNU-ICALK/PsychEval

下载链接

链接失效反馈

官方服务：

资源简介：

PsychEval是一个全面的基准测试，旨在评估大型语言模型（LLMs）在心理咨询背景下的表现。与现有基准不同，PsychEval强调纵向、多会话的咨询过程和多疗法能力。

PsychEval is a comprehensive benchmark designed to evaluate the performance of Large Language Models (LLMs) in the context of psychological counseling. In contrast to existing benchmarks, PsychEval emphasizes longitudinal, multi-session counseling processes and multi-therapy capabilities.

创建时间：

2025-12-30

原始信息汇总

PsychEval 数据集概述

数据集简介

PsychEval 是一个用于评估大型语言模型在心理咨询场景下表现的综合基准。它区别于现有专注于单轮交互或单次会话评估的基准，强调纵向、多会话的咨询过程和多疗法能力。

核心特性

多会话连续性：包含每个案例6-10次会话的完整咨询周期，分为三个不同阶段：
1. 个案概念化：信息收集与关系建立。
2. 核心干预：干预与问题解决。
3. 巩固：巩固与终止。
多疗法覆盖：支持跨不同治疗方法（如认知行为疗法、焦点解决短期治疗）以及整合疗法的评估，要求人工智能模型调整其策略。
高真实性与细粒度：
- 标注了广泛的专业技能。
- 包含677项元技能和4577项原子技能。
- 关注记忆连续性、动态目标追踪和纵向规划。
可靠评估：引入了多智能体评估框架，涉及来访者模拟器（用于真实角色扮演）和督导智能体（用于专业评分）。

数据集构建

该数据集模拟了完整的咨询生命周期。每个案例的结构都反映了真实世界治疗过程的进展。

数据分布

数据分布信息通过统计图表进行展示。

评估框架

建立了一个利用18个疗法特定及共享指标（如工作联盟量表用于评估联盟关系、认知治疗评定量表用于评估认知行为疗法能力、症状自评量表用于评估症状减轻）的整体评估系统。结果表明，PsychEval 实现了前所未有的临床保真度，在技术依从性方面（如认知治疗评定量表得分：9.19）使先前模型的得分近乎翻倍。

运行评估

主评估脚本：执行多维评估，使用命令 python3 -m eval.manager.evaluation_mutil。
配置指标：可通过修改配置文件中的 method_cls 列表来自定义评估指标。
基线复现与数据转换：为复现其他论文的结果，需先转换数据格式以确保兼容性。
- 步骤1：运行专用转换脚本 python3 manager/Simpsydial/convert_simpsydial.py。
- 步骤2：转换后，运行步骤1中提到的主评估脚本。

引用

如果研究中使用 PsychEval，请引用论文： bibtex @inproceedings{pan2026psycheval, title={PsychEval: A Multi-Session and Multi-Therapy Benchmark for High-Realism AI Psychological Counselor}, author={Qianjun Pan and Junyi Wang and Jie Zhou and Yutao Yang and Junsong Li and Kaiyin Xu and Yougen Zhou and Yihan Li and Jingyuan Zhao and Qin Chen and Ningning Zhou and Kai Chen and Liang He}, year={2026}, eprint={2601.01802}, archivePrefix={arXiv}, primaryClass={cs.AI}, url={https://arxiv.org/abs/2601.01802}, }

搜集汇总

数据集介绍

构建方式

在心理治疗领域，构建高保真度的对话数据集对于评估人工智能咨询师的能力至关重要。PsychEval的构建过程模拟了真实心理咨询的完整生命周期，每个案例均涵盖6至10次咨询会话，并划分为概念化、核心干预与巩固终止三个阶段。数据生成采用了系统化的流程，从案例提取到对话构建，均通过专业标注确保内容符合临床实践标准，同时融入了多疗法框架以适应不同治疗取向的需求。

特点

该数据集的核心特点在于其高度真实性与专业粒度。它不仅支持多会话连续性，完整呈现咨询关系的动态演进，还覆盖认知行为疗法、焦点解决短期治疗等多种疗法，要求模型具备策略适应性。数据集标注了677项元技能与4577项原子技能，聚焦于记忆连续性、动态目标追踪及纵向规划能力，并通过多智能体评估框架确保了评分的专业可靠性。

使用方法

使用PsychEval进行评估时，研究者可通过运行多维评估脚本启动整体测评流程。评估体系整合了18项疗法专用及共享指标，如工作联盟量表、认知治疗评定量表等，以全面衡量模型表现。用户可灵活配置评估指标，并通过数据格式转换工具兼容其他基准数据，便于开展对比研究与基线复现，从而推动高真实性AI心理辅导模型的科学进展。

背景与挑战

背景概述

在人工智能与心理健康交叉领域，评估大型语言模型在心理咨询场景中的专业能力一直缺乏高保真度的基准测试工具。PsychEval数据集由华东师范大学智能计算与知识学习实验室（ICALK）于2026年创建，旨在填补这一空白。该数据集的核心研究问题是评估AI心理咨询师在多轮次、多疗法情境下的纵向对话能力与临床技能适配性。通过模拟完整的咨询周期，涵盖案例概念化、核心干预和巩固终止三个阶段，PsychEval不仅推动了AI在心理辅助领域的应用发展，也为模型的可信度与专业性设定了新的评估标准，对促进人工智能在敏感医疗场景中的安全部署具有深远影响。

当前挑战

PsychEval所针对的领域挑战在于如何精准评估AI模型在复杂心理咨询流程中的表现，这涉及对多轮对话连续性、动态目标追踪及跨疗法策略适配性的综合考量。构建过程中的挑战则体现在高真实性数据模拟与专业标注上，需要将677项元技能与4577项原子技能系统化地融入对话结构，同时确保多代理评估框架中客户模拟器与督导代理的协同运作能可靠反映临床保真度。这些挑战共同指向了在保持伦理严谨性与技术可扩展性的前提下，实现人工智能在心理健康领域的高质量服务迁移。

常用场景

经典使用场景

在人工智能与心理健康交叉领域，PsychEval数据集为评估大型语言模型在心理咨询场景中的表现提供了高保真基准。其经典使用场景集中于模拟多会话、多疗法的完整咨询周期，涵盖从案例概念化到核心干预再到巩固终止的纵向过程。研究者利用该数据集测试模型在连续对话中维持记忆连贯性、动态追踪治疗目标以及适应不同疗法策略的能力，从而深入探究AI在复杂心理干预中的行为模式与适应性。

实际应用

在实际应用层面，PsychEval为开发高现实感的AI心理咨询系统提供了关键训练与评估资源。医疗机构与科技公司可借助该数据集优化对话系统的治疗依从性与用户共情能力，辅助实现个性化、长期性的心理支持服务。其多疗法设计支持认知行为疗法、焦点解决短期疗法等主流干预方法的模拟，有助于在实际部署中提升AI辅助心理服务的专业性、安全性及伦理合规性。

衍生相关工作

围绕PsychEval数据集，已衍生出一系列聚焦于AI心理咨询评估的经典研究工作。例如，基于其多智能体评估框架，研究者开发了更精细的模拟客户端与督导代理系统，以增强对话交互的真实性与评分客观性。同时，该数据集也促进了跨疗法融合策略、长期对话记忆建模以及动态目标跟踪等方向的算法创新，为后续构建更成熟、可信任的AI心理辅助工具奠定了理论与实验基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集