MentalBench-100k, MentalAlign-70k
收藏MentalBench-100k & MentalAlign-70k 数据集概述
数据集简介
MentalBench-100k和MentalAlign-70k是两个互补的基准数据集,用于系统评估大型语言模型在心理健康支持对话中的表现。这些资源建立了一个双基准生态系统,用于研究心理健康背景下的响应生成和评估对齐。
核心数据集
MentalBench-100k数据集
- 对话数量:10,000个
- 每个对话的响应数量:1个人类响应 + 9个LLM生成响应
- 总响应数量:100,000个
- 覆盖条件:23个临床相关类别(焦虑、抑郁、人际关系、悲伤等)
- 平均上下文长度:72.6个单词
- 平均响应长度:87.0个单词
使用的LLM模型:GPT-4o、GPT-4o-Mini、Claude-3.5-Haiku、Gemini-2.0-Flash、LLaMA-3.1-8B-Instruct、Qwen2.5-7B、Qwen-3-4B、DeepSeek-LLaMA-8B、DeepSeek-Qwen-7B
MentalAlign-70k数据集
- 评分数量:70,000个(1,000个对话 × 10个响应 × 7个属性)
- 评估者:3名人类专家 + 4个LLM(Claude-3.7-Sonnet、GPT-4o、GPT-4o-Mini、Gemini-2.5-Flash)
- 评估属性:
- 认知支持分数(CSS):指导性、信息性、相关性、安全性
- 情感共鸣分数(ARS):同理心、帮助性、理解性
评估框架
情感-认知一致性框架
采用三重支柱(一致性、协议、偏见)的可靠性框架,包含以下分析方法:
- ICC分析:人类和LLM评估者之间的协议和一致性
- Bootstrap置信区间:量化可靠性估计的精确度
- 偏见检测:属性和模型特定的膨胀分析
可靠性分类
- 良好可靠性(GR)
- 需要中等验证(MV)
- 有限可靠性(LR)
主要发现
性能表现
- 高容量模型(GPT-4o、Gemini-2.0-Flash)持续优于较小的开源系统
- 同理心和帮助性显示欺骗性高分但不确定性较大,需要谨慎对待
- 安全性和相关性在所有评估者中表现出系统性差的可靠性
- LLM评估者在情感属性上系统性膨胀评分(+0.4–0.8)
可靠性指导
该框架揭示了自动化评估在哪些方面可靠(如指导性、信息性),以及在哪些方面需要人类监督(如同理心、安全性、相关性)。
数据集结构
MentalBench-100k/ # 数据集文件 MentalAlign-70k/ # 人类和LLM评估结果 ├── LLMs_as_a_judge/ # LLM作为评估者的结果 └── Human_Judge/ # 人类评估结果 code/ # 实现代码 ├── generation/ # LLM响应生成脚本 ├── evaluation/ # 评估框架实现 └── analysis/ # ICC框架的分析和可视化脚本 results/ # 评估结果 docs/ # 文档
引用信息
bibtex @article{mentalbench2025, title={When Can We Trust LLMs in Mental Health? Large-Scale Benchmarks for Reliable LLM Evaluation}, author={Badawi, Abeer and Rahimi, Elahe and Laskar, Md Tahmid Rahman and others}, year={2025}, journal={arXiv preprint arXiv:XXXX.XXXXX} }

- 1When Can We Trust LLMs in Mental Health? Large-Scale Benchmarks for Reliable LLM EvaluationYork University,Canada,Vector Institute,Canada,Dalhousie University,Canada,IWK Health Hospital,Canada,King's College London,UK · 2025年



