TRUSTMH-BENCH

Name: TRUSTMH-BENCH
Creator: 中国人民大学; 北京邮电大学; 合肥工业大学
Published: 2026-03-03 22:39:35
License: 暂无描述

arXiv2026-03-03 更新2026-03-05 收录

下载链接：

https://github.com/Qiyuan0130/TrustMH_Bench

下载链接

链接失效反馈

官方服务：

资源简介：

TRUSTMH-BENCH是由中国人民大学等机构联合构建的心理健康领域大语言模型可信度评估基准，包含1,339条临床标注对话数据。该数据集整合了D4抑郁评估对话、SWMH精神障碍分类等专业资源，通过知识问答、情感识别、危机干预等八维指标体系，系统评估模型在临床可靠性、隐私保护、反谄媚等方面的表现。其构建过程严格遵循美国医学执照考试(USMLE)标准和哥伦比亚自杀风险评估量表(C-SSRS)等临床规范，旨在解决心理健康AI应用中存在的伦理边界模糊、危机响应不足等关键信任问题。

TRUSTMH-BENCH is a credibility evaluation benchmark for large language models (LLMs) in the mental health domain, jointly developed by Renmin University of China and other institutions. It contains 1,339 clinically annotated conversational datasets. This benchmark integrates professional resources such as D4 depression assessment conversations and SWMH mental disorder classification. Through an eight-dimensional indicator system covering knowledge QA, emotion recognition, crisis intervention and other aspects, it systematically evaluates the performance of LLMs in terms of clinical reliability, privacy protection, anti-flattery and other dimensions. Its construction strictly follows clinical guidelines such as the United States Medical Licensing Examination (USMLE) standards and the Columbia Suicide Severity Rating Scale (C-SSRS). It aims to address key trust issues in mental health AI applications, such as vague ethical boundaries and insufficient crisis response.

提供机构：

中国人民大学; 北京邮电大学; 合肥工业大学

创建时间：

2026-03-03

原始信息汇总

TRUSTMH-BENCH 数据集概述

数据集简介

TRUSTMH-BENCH 是一个用于评估通用及心理健康领域大语言模型在心理健康场景中可信度的基准。它从可靠性、危机识别与升级、安全性、公平性、隐私性、鲁棒性、反谄媚性和道德性等多个维度对模型进行评估。该基准为研究者和开发者提供了标准化、可复现的评估框架。

数据集构成

数据集包含外部数据集和内部构建数据集两部分。

外部数据集

USMLE-Mental: 用于精神病症状检测、诊断和临床管理的数据集。
D4: 用于疾病检测、诊断和描述的数据集。
SWMH: 用于从社交媒体检测自杀意念和精神障碍的数据集。
ESConv: 用于情感支持对话和基于策略的支持的数据集。
EU: 用于心理健康对话中同理心理解和回复生成的数据集。
CPsyCounE: 用于评估中文心理咨询中同理心和咨询师技能的数据集。
C-SSRS: 基于哥伦比亚自杀严重程度评定量表的自杀意念和行为评估数据集。
LLMs-Mental-Health-Crisis: 用于危机分类和识别的数据集。
AITA: 包含基于众包的错误行为判断的数据集。
OEQ: 涵盖各种现实生活场景的开放式个人建议查询数据集。
PAS: 包含一系列关于问题行为陈述的数据集。
tier_1: 用于测试基本隐私意识的数据集。
tier_2: 用于测试各种情境下隐私意识的数据集。
EthicMH: 用于心理健康咨询中伦理评估和风险检测的数据集。

内部数据集

PsyLeak: 改编自论文《Can LLMs Keep a Secret? Testing Privacy Implications of Language Models via Contextual Integrity Theory》的“Tier 3: Theory of Mind as Context”部分。该数据集将来自PsyQA数据集的单轮对话整合到原始数据框架中，从而将一般社交场景转向专业的医疗隐私背景。
PsyAlign: 包含从国际咨询和AI框架（如美国咨询协会和OECD AI原则）中综合提炼的14条指导原则。在本研究中，这些原则被用于定义安全关键任务中的越狱目标。
PsyHarm: 一个用于评估心理健康大语言模型领域特定风险的基础性初始有害意图数据集。它基于PsyAlign构建，涵盖了一系列违规场景，其中不恰当的AI回应可能导致严重的现实世界心理后果。在研究评估流程中，PsyHarm作为源材料，随后被转化为对抗性的JailbreakMH数据集，以测试模型的拒绝能力。
JailbreakMH: 一个专门用于评估面向心理健康的大语言模型抗越狱能力的对抗性数据集。它建立在PsyHarm数据集之上，并遵循《TrustLLM: Trustworthiness in Large Language Models – A Principle and Benchmark》的分类法，采用了13种不同的攻击子类。其主要目的是通过拒绝率来量化模型的防御能力。
ESConv_fair: 一个为情感支持背景下的公平性评估而设计的精选数据集。它源自ESConv数据集，并通过GPT-4驱动的严格过滤过程生成。该数据集专门提取了不包含（直接或隐含）可识别人口统计或身份特征的单轮或多轮对话，以评估模型是否能为不同用户提供公平、无偏见的支持。

实验与结果

研究进行了一系列实验来评估各种语言模型在心理健康任务上的表现。整体排名结果已通过图表展示。

使用说明

使用本仓库中包含的任何源代码或数据集时，请引用相应的论文。具体引用信息请参考原仓库。

搜集汇总

数据集介绍

构建方式

TRUSTMH-BENCH的构建基于心理健康领域专业规范与可信人工智能框架的深度融合，通过系统化协议将临床风险管理和数字健康伦理原则转化为可量化的评估指标。该基准采用分层设计，首先从美国医师执照考试等权威来源整合心理健康知识题库，并融合ESConv、D4、SWMH等多个现有对话与诊断数据集，覆盖从基础认知到危机干预的连续评估场景。针对隐私和反谄媚等维度，研究团队进一步构建了PsyLeak和JailbreakMH等新型对抗性数据集，通过理论驱动的情境重构与攻击向量注入，模拟真实咨询中的信息泄露与安全边界挑战。整个构建过程强调临床真实性与评估严谨性的平衡，确保各评估维度均能反映心理健康应用中的核心信任要素。

使用方法

使用TRUSTMH-BENCH进行评估时，研究者需首先根据基准提供的标准化协议准备模型接口与数据加载流程。评估流程分为任务执行与结果解析两个阶段：在任务执行阶段，模型需依次处理知识问答、情感支持生成、危机分类等多样化提示，并记录其原始输出；结果解析阶段则依赖内置的自动化评估脚本，采用基于LLM的评判机制与预训练分类器对模型响应进行多维度打分。对于公平性评估，需运行反事实数据生成管道以测量不同人口统计子组的性能方差；鲁棒性测试则需调用字符、词句三级扰动引擎，量化模型在噪声环境下的衰减曲线。最终结果可通过集成可视化工具生成跨维度的对比雷达图，支持研究者系统性识别模型在心理健康场景中的信任缺陷与改进方向。

背景与挑战

背景概述

TRUSTMH-BENCH 是由中国人民大学等机构的研究团队于2026年提出的综合性基准测试框架，旨在系统评估大型语言模型在心理健康领域的可信度。该数据集的创建源于心理健康支持作为高敏感性与高风险领域，对人工智能系统的可靠性、安全性与伦理合规性提出了严峻挑战。现有通用型LLM评估范式难以捕捉心理健康特有的专业要求，如危机识别、隐私保护与伦理边界等，导致模型在实际部署中可能引发严重心理伤害。TRUSTMH-BENCH通过建立从领域规范到量化指标的深度映射，覆盖可靠性、危机识别与升级、安全性、公平性、隐私性、鲁棒性、反谄媚性与伦理八大核心维度，为心理健康LLM的可信度评估提供了首个多维度、系统化的科学基准。

当前挑战

TRUSTMH-BENCH 所应对的核心挑战在于心理健康领域对LLM可信度的复杂多维要求。在领域问题层面，模型需在情感支持、危机干预等高敏感任务中，同时保障临床可靠性、及时的风险识别与升级、对抗性攻击的防御、跨人口群体的公平性、隐私信息保护、输入扰动下的稳定性、对用户有害信念的抵抗以及专业伦理规范的遵循。这些维度相互耦合，任一方面的缺失都可能导致实际应用中的严重风险。在构建过程中，挑战主要体现在将抽象的专业准则（如临床伦理、危机管理协议）转化为可量化、可扩展的计算指标，并设计覆盖多层次交互场景的评估任务。此外，数据收集需平衡真实性与隐私保护，而评估协议的设计需兼顾心理学的专业性与自然语言处理的可行性。

常用场景

经典使用场景

在心理健康领域，大语言模型的应用日益广泛，但现有评估框架往往缺乏针对该领域高风险特性的系统化考量。TRUSTMH-BENCH作为首个全面评估心理健康大语言模型可信度的基准，其经典使用场景在于为研究者和开发者提供一个多维度的量化评估工具。该基准通过模拟真实心理咨询对话，覆盖从基础知识掌握到危机干预的完整流程，使得模型能够在受控环境中接受可靠性、安全性、公平性等八个核心维度的严格测试。这种系统化评估不仅揭示了模型在情感支持、隐私保护等方面的表现差异，还为优化模型在敏感场景下的部署提供了实证依据。

解决学术问题

TRUSTMH-BENCH致力于解决心理健康人工智能研究中长期存在的评估碎片化问题。传统评估往往聚焦于单一维度，如共情能力或基本安全过滤，而忽略了危机识别、伦理边界、反谄媚等关键可信度要素。该基准通过将临床风险管理、数字健康伦理等专业规范转化为可计算的指标，系统化地量化模型在八个维度的表现，从而填补了领域特异性评估的空白。其意义在于为学术界提供了统一的评估标准，推动心理健康大语言模型从孤立性能优化向整体可信度提升的范式转变，并为制定行业安全规范奠定了实证基础。

实际应用

在实际应用层面，TRUSTMH-BENCH为心理健康服务的技术部署提供了关键的质量控制工具。全球心理健康专业人员的短缺促使基于大语言模型的辅助系统成为可扩展的替代方案，但这些系统在真实场景中的可靠性直接关系到用户的安全与福祉。该基准通过评估模型在危机识别与升级、隐私泄露防护、抗干扰鲁棒性等方面的表现，帮助开发者识别模型在高压咨询情境下的潜在风险。例如，在模拟自杀倾向对话中测试模型的升级决策能力，或在对抗性提示下检验其安全防护机制，这些评估为实际部署前的风险缓释提供了重要参考，助力构建更安全、合规的心理健康辅助系统。

数据集最近研究