Mental Health Crisis Evaluation Dataset

Name: Mental Health Crisis Evaluation Dataset
Creator: ELLIS Alicante,Spain
Published: 2025-09-29 22:42:23
License: 暂无描述

arXiv2025-09-29 更新2025-10-01 收录

下载链接：

https://www.theguarc

下载链接

链接失效反馈

官方服务：

资源简介：

本数据集由ELLIS Alicante研究机构创建，旨在评估大型语言模型（LLM）在处理心理健康危机方面的能力。数据集包含了超过2000条用户输入，这些输入来自12个公开可用的数据源，并被归类为六种临床心理危机类别。该数据集为评估LLM在危机类型分类和生成适当回应方面的能力提供了基础，并为在心理健康支持中使用LLM的安全性和有效性研究奠定了基础。

This dataset was created by the ELLIS Alicante research institution to evaluate the capabilities of large language models (LLMs) in handling mental health crises. It contains over 2,000 user inputs sourced from 12 publicly available data sources, which are categorized into six clinical psychological crisis categories. This dataset provides a foundation for evaluating LLMs' abilities in crisis type classification and generating appropriate responses, and lays the groundwork for research on the safety and effectiveness of deploying LLMs in mental health support.

提供机构：

ELLIS Alicante,Spain

创建时间：

2025-09-29

搜集汇总

数据集介绍

构建方式

在心理健康危机评估数据集的构建过程中，研究团队从12个公开可用的心理健康研究数据集中整合了约23.9万条用户文本输入，经过严格的去重和清洗流程后，最终筛选出2,046条样本作为测试集。通过跨学科专家团队制定的统一危机分类法，将用户输入划分为自杀意念、自伤行为、焦虑危机、暴力想法、物质滥用或戒断、冒险行为六大临床类别，并采用LLM作为评判者的技术框架进行自动化标注，确保了分类结果的临床有效性和标注一致性。

特点

该数据集最显著的特征在于其临床导向的危机分类体系，每个类别均基于心理学和临床实践的专业知识进行定义，并配有具体的实例说明。数据集涵盖了多样化的危机场景，既包括直接的情绪表达，也涉及间接的风险信号，真实反映了用户在心理健康危机中的复杂表达方式。特别值得注意的是，数据集中超过60%的样本被标注为无危机状态，这种分布模式与现实世界中心理健康问题的普遍性特征高度吻合，为模型评估提供了更加贴近实际的应用场景。

使用方法

研究人员可通过该数据集系统评估大型语言模型在心理健康危机场景下的表现，具体包括危机类型识别准确性和响应适当性两个维度。在使用过程中，首先将用户输入提交给待评估模型生成响应，然后结合预设的危机分类标签，采用专家设计的5点李克特量表对模型响应进行评分。评估协议详细定义了从有害到完全适当各个等级的具体标准，确保评估过程的标准化和可重复性。这种系统化的评估方法为比较不同模型在心理健康支持领域的能力提供了可靠基准。

背景与挑战

背景概述

随着大型语言模型驱动的聊天机器人日益普及，其在心理健康支持领域的应用引发了广泛关注。Mental Health Crisis Evaluation Dataset由ELLIS Alicante与诺丁汉大学等机构的研究团队于2025年共同创建，旨在系统评估通用大语言模型对心理健康危机的识别与应对能力。该数据集整合了12个公开来源的239,606条对话记录，构建了涵盖自杀意念、自伤行为、焦虑危机等六类临床定义危机的统一分类体系，通过专家设计的评估协议对模型响应进行五级量表评分，为AI在心理健康领域的安全部署提供了关键基准。

当前挑战

该数据集致力于解决通用大语言模型在心理健康危机干预中的核心挑战：如何准确识别间接表达或知识探寻类危机信号，并生成符合临床实践的安全响应。构建过程中面临多重挑战：需从异构数据源中筛选具有临床代表性的对话样本，克服原始标注稀疏且不一致的局限；需建立跨学科专家协同的标注协议，平衡自动化标注效率与临床准确性；需设计能捕捉文化适应性、年龄特异性等维度的评估框架，避免因语境缺失导致有害响应。

常用场景

经典使用场景

在心理健康危机干预领域，该数据集为评估大语言模型在危机情境下的响应能力提供了标准化基准。研究者通过该数据集能够系统测试模型对自杀意念、自伤行为、焦虑危机等六类典型危机的识别与响应质量，其精心设计的评估协议确保了测试结果与临床实践的高度契合。数据集整合了12个公开来源的多样化对话样本，覆盖了从显性求助到间接风险信号的全谱系危机场景，为模型安全性的横向比较奠定了坚实基础。

衍生相关工作

该数据集催生了系列重要衍生研究，包括基于其分类体系的跨文化危机检测模型优化、结合临床工作流程的混合干预系统设计等。后续研究者在数据集基础上开发了动态风险评估算法，通过分析用户历史对话提升危机预测准确率；另有工作聚焦于特定高危群体（如青少年）的定制化响应策略，扩展了原始数据集的适用边界。这些衍生成果共同构成了心理健康AI研究的新范式，推动了从单一响应评估向全周期风险管理的范式转变。

数据集最近研究