five

COUNSELBENCH

收藏
arXiv2025-06-10 更新2025-06-12 收录
下载链接:
https://github.com/llm-eval-mental-health/CounselBench
下载链接
链接失效反馈
官方服务:
资源简介:
COUNSELBENCH是一个大型基准数据集,由100名心理健康专家共同开发,旨在评估和压力测试大型语言模型(LLMs)在单一回合的心理健康咨询中的表现。该数据集分为两部分:COUNSELBENCH-EVAL包含2000个专家对GPT-4、LLaMA 3、Gemini和在线人类治疗师对真实患者问题的回答的评价,每个回答都根据六个临床相关维度进行评分,并提供书面理由和跨度级别注释。COUNSELBENCH-ADV则包含120个由专家编写的对抗性咨询问题,旨在触发特定的模型问题。该数据集为评估和改进LLMs在关键心理健康场景中的行为提供了临床基础的框架。

COUNSELBENCH is a large-scale benchmark dataset co-developed by 100 mental health professionals, designed to evaluate and stress-test the performance of large language models (LLMs) in single-turn mental health counseling scenarios. This dataset is divided into two parts: COUNSELBENCH-EVAL contains 2000 expert ratings on responses from GPT-4, LLaMA 3, Gemini and online human therapists to real patient questions. Each response is scored across six clinically relevant dimensions, with written justifications and span-level annotations provided. COUNSELBENCH-ADV includes 120 expert-authored adversarial counseling questions that are designed to trigger specific model failures. This dataset provides a clinically grounded framework for evaluating and improving the behavior of LLMs in critical mental health scenarios.
提供机构:
南加州大学
创建时间:
2025-06-10
原始信息汇总

CounselBench 数据集概述

数据集简介

CounselBench 是一个大规模专家评估和对抗性基准测试数据集,专注于评估大型语言模型在心理健康咨询领域的表现。包含两个子数据集:

  1. CounselBench-Eval

    • 数据来源:基于CounselChat数据
    • 评估规模:2000份人类评估
    • 评估人员:100名心理健康专业人士
    • 获取地址:https://huggingface.co/datasets/izi-ano/CounselBench-Eval
  2. CounselBench-Adv

    • 数据特征:120个对抗性问题
    • 设计人员:由专业人士设计
    • 目标:针对CounselBench-Eval中观察到的六种失败模式
    • 获取地址:https://huggingface.co/datasets/izi-ano/CounselBench-Adv

数据集结构

counselbench/ ├─ preprocess/ # CounselChat数据预处理和采样 ├─ models/ # 模型接口实现 ├─ generate_counselchat/ # 生成模型响应 ├─ llm_as_judges/ # LLM作为评估者的实验 ├─ run_adversarial/ # 对抗性评估代码 └─ config.json # API密钥配置文件

主要功能模块

  1. 模型响应生成

    • 支持模型:Claude、Gemini、Llama 3、OpenAI LLM
    • 参数控制:温度参数(temperature=0.7)、长度约束(is_length_constrained)
  2. LLM评估系统

    • 自动化评估脚本
    • 错误分析功能(医疗错误/不正确/毒性错误)
  3. 对抗性评估

    • 代表性问答提取
    • 人类评审采样(96个问题用于GPT-4.1与人类标注者一致性检查)

统计分析

  1. 评分者一致性分析

    • 采用Krippendorffs Alpha系数
    • 每个问题-响应对由5名标注者评分
  2. 显著性检验

    • Wilcoxon符号秩检验应用于:
      • 模型响应与在线治疗师响应的人类评分差异
      • 人类标注者与LLM评估者的评分差异
搜集汇总
数据集介绍
main_image_url
构建方式
COUNSELBENCH作为心理健康咨询领域的专业评估基准,其构建过程体现了严谨的学术规范与跨学科协作精神。研究团队从CounselChat平台精选100个真实咨询问题,覆盖抑郁、焦虑、创伤等20个常见主题,确保问题多样性和临床相关性。通过邀请100名持证心理健康专家对GPT-4、LLaMA 3、Gemini及人类治疗师的2000条回复进行六维度评估(包括共情力、专业建议等),并辅以文本片段标注和书面评述,构建了COUNSELBENCH-EVAL评估数据集。为深入探究模型缺陷,临床专家进一步设计120个针对性对抗问题形成COUNSELBENCH-ADV数据集,通过系统化压力测试揭示大语言模型在高风险场景中的特定失败模式。
特点
该数据集的核心价值体现在三个维度:临床权威性方面,所有评估均来自43个细分领域的持证专家,确保评判标准的专业可靠性;评估体系创新性方面,独创的六维度评分框架(含整体质量、医学建议等)结合跨度标注和质性分析,实现响应质量的立体化解析;对抗测试系统性方面,专家设计的对抗性问题能有效触发模型在药物建议、症状推测等关键场景的失误,为安全漏洞研究提供精准靶点。数据集的混合模态特性(量化评分+质性评述)尤其适合探究AI心理咨询中质量与安全的平衡问题。
使用方法
研究者可通过三种路径利用该数据集:性能基准测试方面,将新模型响应与数据集中的专家评分进行对比,特别关注医学建议和毒性等安全维度;评估自动化研究方面,基于2000条带标注的响应训练自动评估模型,或验证LLM作为评判者的可靠性;安全增强研究方面,利用对抗数据集识别模型弱点并开发防御策略。使用时需注意遵循伦理规范,所有咨询问题均已去标识化,且配套提示模板和生成参数完整公开确保可复现性。数据集特别适用于探究单轮咨询场景下AI系统的临床适宜性。
背景与挑战
背景概述
COUNSELBENCH是由南加州大学的研究团队于2025年推出的一个大规模专家评估与对抗性基准数据集,旨在评估大型语言模型(LLMs)在心理健康咨询场景中的表现。该数据集由100名心理健康专业人士参与构建,包含两部分:COUNSELBENCH-EVAL(2000条专家对LLMs和人类治疗师回复的评估)和COUNSELBENCH-ADV(120条专家设计的对抗性问题)。其核心研究问题包括LLMs在单轮心理咨询中的质量与安全性、LLMs自我评估的可靠性以及LLMs在咨询中的常见失败模式。该数据集为心理健康领域的高风险应用提供了临床基础的评估框架,填补了现有医学NLP基准在心理咨询能力评估上的空白。
当前挑战
COUNSELBENCH面临的挑战主要包括两方面:领域问题挑战和构建过程挑战。在领域问题方面,LLMs在心理咨询中需解决情感共鸣、情境敏感性和开放性推理等复杂能力问题,但存在提供未经授权的医疗建议、缺乏共情和个性化等风险。构建过程中的挑战包括:1) 确保专家评估的临床有效性和一致性;2) 设计对抗性问题以系统性触发LLMs的特定失败模式;3) 处理单轮咨询场景中无法修复回复的局限性;4) 平衡LLMs生成内容的质量与安全性评估。此外,LLMs自我评估时存在过度评分和忽视安全问题的倾向,这增加了自动化评估的难度。
常用场景
经典使用场景
COUNSELBENCH作为心理健康咨询领域的大规模专家评估基准,其经典使用场景主要聚焦于单轮心理咨询情境下的语言模型行为评估。该数据集通过2000组真实患者问题与GPT-4、LLaMA 3等模型及人类治疗师回答的专家评分,为研究者在模拟在线论坛、即时干预系统等场景下的模型表现提供了标准化测试平台。专业临床工作者依据六个临床维度(共情力、特异性等)的精细标注,使得该数据集特别适用于对比分析不同模型在情感支持、安全边界等核心咨询能力上的差异。
解决学术问题
该数据集有效解决了心理健康领域NLP研究的三个关键问题:首先通过专家标注体系建立了临床质量评估的黄金标准,弥补了传统众包标注缺乏专业性的缺陷;其次揭示了LLM生成内容在未授权医疗建议等方面的安全隐患,为模型安全对齐研究提供了实证依据;最后通过对抗性测试集COUNSELBENCH-ADV,系统化地暴露了模型在症状推测等特定场景下的失效模式,推动了可解释性研究。这些突破对高风险的医疗AI部署具有重要警示意义。
衍生相关工作
该数据集已衍生出多个标志性研究方向:基于专家标注的LLM-as-Judge可靠性验证研究揭示了自动化评估的局限性;对抗性测试方法论启发了Mental-LLM等后续工作对模型脆弱性的系统探测;其临床维度评估体系被PAIR等对话系统广泛采纳。此外,数据集构建中采用的跨学科协作模式(100名心理健康专家参与)为CUempathy等后续专业数据集建立了可复用的标注范式。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作