MentalBench-100k, MentalAlign-70k

Name: MentalBench-100k, MentalAlign-70k
Creator: York University,Canada,Vector Institute,Canada,Dalhousie University,Canada,IWK Health Hospital,Canada,King's College London,UK
Published: 2025-10-22 03:21:21
License: 暂无描述

arXiv2025-10-22 更新2025-10-24 收录

下载链接：

https://github.com/abeerbadawi/MentalBench-Align

下载链接

链接失效反馈

官方服务：

资源简介：

MentalBench-100k数据集由三个真实场景数据集的10,000个单轮对话组成，每个对话都配对有九个LLM生成的回复，共100,000个回复对。MentalAlign-70k数据集通过比较人类专家和四个高性能LLM在70,000个评分上的七个属性，重新定义了评估框架。这些数据集旨在评估LLM在心理支持中的可靠性，并为LLM在心理健康领域的应用提供基准。

The MentalBench-100k dataset consists of 10,000 single-turn dialogues sourced from three real-world scenario datasets, with each dialogue paired with nine LLM-generated responses, totaling 100,000 response pairs. The MentalAlign-70k dataset redefines the evaluation framework by comparing seven attributes across 70,000 scores from human experts and four high-performance LLMs. These datasets are designed to evaluate the reliability of LLMs in psychological support and provide benchmarks for the application of LLMs in the field of mental health.

提供机构：

York University,Canada,Vector Institute,Canada,Dalhousie University,Canada,IWK Health Hospital,Canada,King's College London,UK

创建时间：

2025-10-22

原始信息汇总

MentalBench-100k & MentalAlign-70k 数据集概述

数据集简介

MentalBench-100k和MentalAlign-70k是两个互补的基准数据集，用于系统评估大型语言模型在心理健康支持对话中的表现。这些资源建立了一个双基准生态系统，用于研究心理健康背景下的响应生成和评估对齐。

核心数据集

MentalBench-100k数据集

对话数量：10,000个
每个对话的响应数量：1个人类响应 + 9个LLM生成响应
总响应数量：100,000个
覆盖条件：23个临床相关类别（焦虑、抑郁、人际关系、悲伤等）
平均上下文长度：72.6个单词
平均响应长度：87.0个单词

使用的LLM模型：GPT-4o、GPT-4o-Mini、Claude-3.5-Haiku、Gemini-2.0-Flash、LLaMA-3.1-8B-Instruct、Qwen2.5-7B、Qwen-3-4B、DeepSeek-LLaMA-8B、DeepSeek-Qwen-7B

MentalAlign-70k数据集

评分数量：70,000个（1,000个对话 × 10个响应 × 7个属性）
评估者：3名人类专家 + 4个LLM（Claude-3.7-Sonnet、GPT-4o、GPT-4o-Mini、Gemini-2.5-Flash）
评估属性：
- 认知支持分数（CSS）：指导性、信息性、相关性、安全性
- 情感共鸣分数（ARS）：同理心、帮助性、理解性

评估框架

情感-认知一致性框架

采用三重支柱（一致性、协议、偏见）的可靠性框架，包含以下分析方法：

ICC分析：人类和LLM评估者之间的协议和一致性
Bootstrap置信区间：量化可靠性估计的精确度
偏见检测：属性和模型特定的膨胀分析

可靠性分类

良好可靠性（GR）
需要中等验证（MV）
有限可靠性（LR）

主要发现

性能表现

高容量模型（GPT-4o、Gemini-2.0-Flash）持续优于较小的开源系统
同理心和帮助性显示欺骗性高分但不确定性较大，需要谨慎对待
安全性和相关性在所有评估者中表现出系统性差的可靠性
LLM评估者在情感属性上系统性膨胀评分（+0.4–0.8）

可靠性指导

该框架揭示了自动化评估在哪些方面可靠（如指导性、信息性），以及在哪些方面需要人类监督（如同理心、安全性、相关性）。

数据集结构

MentalBench-100k/ # 数据集文件 MentalAlign-70k/ # 人类和LLM评估结果 ├── LLMs_as_a_judge/ # LLM作为评估者的结果 └── Human_Judge/ # 人类评估结果 code/ # 实现代码 ├── generation/ # LLM响应生成脚本 ├── evaluation/ # 评估框架实现 └── analysis/ # ICC框架的分析和可视化脚本 results/ # 评估结果 docs/ # 文档

引用信息

bibtex @article{mentalbench2025, title={When Can We Trust LLMs in Mental Health? Large-Scale Benchmarks for Reliable LLM Evaluation}, author={Badawi, Abeer and Rahimi, Elahe and Laskar, Md Tahmid Rahman and others}, year={2025}, journal={arXiv preprint arXiv:XXXX.XXXXX} }

搜集汇总

数据集介绍

构建方式

在心理健康对话评估领域，现有数据集普遍存在规模有限和真实性不足的局限。MentalBench-100k通过整合三个真实临床场景数据集构建而成，包括来自PISCES临床试验的MentalChat16K、专业治疗师主导的EmoCare会话以及CounselChat平台的专业咨询记录。该数据集精选10,000轮真实对话，每条对话配以九种不同大语言模型生成的响应，最终形成包含100,000个响应对的基准测试集。为确保数据质量，所有对话均经过严格的审核清洗流程，并按23种心理健康状况进行系统分类标注。

使用方法

该数据集支持生成与评估双轨研究范式。在生成研究方面，研究者可利用10,000个真实对话上下文及其对应的多种模型响应，系统比较不同模型在心理健康支持场景下的表现差异。评估研究则依托MentalAlign-70k的专家评分体系，通过计算组内相关系数和置信区间，量化大语言模型评估者与人类专家在认知和情感维度上的一致性程度。研究过程中需特别注意排除模型自评估偏差，并采用引导抽样方法确保统计结论的稳健性，为心理健康领域的大语言模型可靠性评估提供标准化分析框架。

背景与挑战

背景概述

随着全球心理健康服务需求的激增与专业人员的严重短缺，MentalBench-100k与MentalAlign-70k数据集于2025年由约克大学、Vector研究所等跨学科团队联合构建。该研究聚焦于大语言模型在心理健康对话中的可靠性评估，通过整合真实临床咨询对话与AI生成响应，建立了首个结合认知支持与情感共鸣双维度的评估框架。其创新性在于引入情感-认知一致性统计方法，为AI在敏感领域的应用提供了实证基础，推动了心理健康支持系统的标准化发展。

当前挑战

在解决心理健康对话评估问题时，该数据集面临模型对情感维度评分一致性不足的挑战，尤其在共情能力评估上存在系统性评分膨胀现象。构建过程中，真实治疗对话的稀缺性与隐私约束限制了数据规模，而多模型生成响应时需克服提示工程敏感性与计算资源瓶颈。此外，评估框架需平衡临床安全性与自动化效率，避免将合成数据特性误判为真实治疗能力。

常用场景

经典使用场景

在心理健康对话系统评估领域，MentalBench-100k与MentalAlign-70k数据集主要用于大规模语言模型在单轮心理咨询场景下的生成质量与评估可靠性分析。该数据集整合了来自真实临床对话、在线咨询平台和AI辅助重构的咨询记录，通过九种不同架构的大语言模型生成对比回复，构建了包含十万个回复对的基准测试平台。研究人员利用这一数据集系统评估模型在认知支持与情感共鸣两个维度的表现，为心理健康领域的大语言模型能力评估提供了标准化测试环境。

解决学术问题

该数据集有效解决了心理健康自然语言处理研究中长期存在的评估标准缺失问题。通过引入认知支持分数与情感共鸣分数的双轴评估体系，建立了覆盖指导性、信息量、相关性、安全性、共情力、帮助性和理解力七个维度的量化指标。其提出的情感-认知一致性框架采用组内相关系数统计方法，首次实现了对人类专家与AI评估者之间一致性、稳定性和偏差的系统量化，为心理健康对话系统的可靠性评估提供了方法论基础，推动了该领域从主观定性评估向客观定量分析的范式转变。

实际应用

在实际应用层面，该数据集为开发安全可靠的心理健康辅助系统提供了关键支撑。医疗科技公司可基于其评估框架优化对话系统的临床适应性，确保生成的回复既符合专业标准又具备情感温度。在线咨询平台能够利用该基准测试筛选合适的语言模型，降低因不当回复导致的伦理风险。教育机构则可借助这一工具培训心理咨询师，通过对比AI与人类专家的回复差异提升临床判断力。政府部门还能依据其可靠性分类框架，制定心理健康AI产品的准入标准和监管政策。

数据集最近研究