MENTALBENCH

Name: MENTALBENCH
Creator: 韩国科学技术院; 成均馆大学; 东国大学医学中心; 首尔科技大学; 三星医疗中心
Published: 2026-02-13 20:21:33
License: 暂无描述

arXiv2026-02-13 更新2026-02-17 收录

下载链接：

https://github.com/HoyunS/MentalBench

下载链接

链接失效反馈

官方服务：

资源简介：

MENTALBENCH是由韩国科学技术院等机构联合开发的精神病诊断评估基准，其核心为专家构建的知识图谱MENTALKG，涵盖23种精神障碍的DSM-5标准。数据集包含24,750条合成临床案例，通过规则增强生成并经过精神病学家审核，确保临床合理性。案例设计涵盖从结构化医疗记录到不完整患者自述的信息谱系，以及从单一病症到复杂鉴别诊断的场景，旨在系统性评估模型在模糊边界下的诊断决策能力。该数据集填补了现有基准在精神病学逻辑严谨性和诊断过程模拟方面的空白，为AI辅助精神健康分析提供标准化测试平台。

提供机构：

韩国科学技术院; 成均馆大学; 东国大学医学中心; 首尔科技大学; 三星医疗中心

创建时间：

2026-02-13

搜集汇总

数据集介绍

构建方式

在精神健康评估领域，MENTALBENCH的构建采用了知识图谱驱动的合成数据生成范式。其核心是MENTALKG，这是一个由精神科专家构建并验证的知识图谱，系统编码了DSM-5中23种精神障碍的诊断标准和鉴别诊断规则。以此图谱为逻辑骨架，研究团队通过规则一致的增强方法生成了诊断场景，并经由精神科医生审查以确保临床合理性。该流程最终产生了24,750个合成临床案例，这些案例在信息完整性和诊断复杂性两个关键维度上进行了系统化变异，从而实现了低噪声且可解释的评估。

特点

MENTALBENCH的显著特点在于其临床基础与系统性设计。与以往依赖社交媒体数据的基准不同，该数据集直接根植于权威的DSM-5诊断框架，确保了评估的专业性与临床相关性。其案例覆盖了从结构化病历到不完整患者自述的多种信息呈现方式，以及从单一障碍识别到具有挑战性的鉴别诊断场景。这种设计使得评估不仅能检验模型识别相关诊断的能力，还能深入探究其在信息模糊情境下确定诊断数量的决策校准能力，从而揭示了现有模型在应用诊断标准而非仅回忆知识方面的核心局限。

使用方法

使用MENTALBENCH进行评估时，需遵循其基于问答的基准框架。评估者将生成的临床案例作为输入，要求大型语言模型从给定的诊断选项中进行选择。对于单一疾病识别任务，模型需输出最可能的单一诊断；对于鉴别诊断任务，则需根据临床证据的明确性，输出一个或多个诊断。评估采用精确匹配指标，仅当模型预测与真实答案集合完全一致时才判定为正确。通过分析模型在不同案例类型上的表现，可以系统地评估其精神病学诊断知识、信息整合能力以及在临床重叠条件下校准诊断信心的决策能力。

背景与挑战

背景概述

MENTALBENCH 是由韩国科学技术院（KAIST）等机构的研究团队于2026年提出的一个专门用于评估大语言模型（LLMs）精神病学诊断能力的基准数据集。该数据集的创建源于全球精神疾病负担日益加重，以及现有评估方法主要依赖社交媒体数据，难以系统评估LLMs基于《精神障碍诊断与统计手册》第五版（DSM-5）标准进行临床诊断决策的能力。其核心是MENTALKG，一个由精神科医生构建并验证的知识图谱，它形式化地编码了23种精神障碍的DSM-5诊断标准和鉴别诊断规则。基于此逻辑骨架，研究团队生成了24,750个合成临床案例，系统性地在信息完整性和诊断复杂性上设置变化，从而实现对LLMs诊断能力低噪声、可解释的评估。MENTALBENCH的发布填补了该领域高质量、逻辑驱动的评估空白，为推进AI在精神健康领域的可靠应用提供了关键工具。

当前挑战

MENTALBENCH旨在解决的领域核心挑战是评估大语言模型在复杂、高风险的临床精神病学诊断中的实际决策能力，特别是其应用DSM-5标准进行鉴别诊断和校准诊断信心的能力。构建该数据集面临多重具体挑战：首先，获取真实、高质量且符合伦理的临床诊断数据异常困难，受限于严格的隐私法规、缺乏客观生物标志物以及诊断逻辑本身的复杂性；其次，需要将非结构化的DSM-5诊断标准和临床鉴别知识，准确、无歧义地转化为结构化的知识图谱（MENTALKG），这一过程高度依赖领域专家的深度参与和迭代验证；最后，基于知识图谱生成既符合临床逻辑又具备自然语言多样性的合成病例时，需在忠实于诊断规则与保持病例描述的自然性和现实感之间取得平衡，并确保生成病例能有效覆盖从信息完整到信息缺失、从单一诊断到复杂鉴别等多种临床场景，以全面检验模型的诊断鲁棒性。

常用场景

经典使用场景

在精神健康计算语言学领域，MENTALBENCH作为一项基于DSM-5诊断逻辑的基准测试，其最经典的使用场景在于系统评估大型语言模型在精神科诊断决策中的能力。该数据集通过精心构建的临床案例，模拟了从结构化病历到不完整患者自述等多种真实诊疗情境，使研究者能够量化模型在信息完整性和诊断复杂性两个关键维度上的表现。尤其值得注意的是，其包含的鉴别诊断任务专门设计用于检验模型区分临床重叠疾病的能力，例如区分重度抑郁症与双相情感障碍，这直接触及了精神科诊断中最核心的挑战。

解决学术问题

MENTALBENCH有效解决了以往精神健康基准测试依赖社交媒体数据、缺乏DSM-5诊断逻辑基础的学术研究问题。它填补了现有评估体系在系统性鉴别诊断和诊断信心校准方面的空白，使得研究者能够超越对诊断标准的事实性回忆测试，深入探究模型在诊断边界模糊时的决策机制。该数据集的意义在于首次将精神病学诊断的复杂逻辑结构——包括症状组合、病程约束、功能损害和排除规则——编码为可计算的知识图谱，为高噪声、可解释的模型评估提供了黄金标准逻辑框架。

衍生相关工作

基于MENTALBENCH所揭示的模型在诊断承诺校准上的缺陷，衍生出了一系列旨在提升大型语言模型临床推理能力的经典研究工作。这些工作主要围绕两个方向展开：一是开发新的训练或微调方法，以增强模型在信息不完整场景下的稳健性和鉴别诊断能力；二是构建更复杂的评估框架，进一步模拟医患对话的动态交互过程，以检验模型在迭代问诊中收集关键信息、应用排除法的能力。这些衍生工作共同推动了计算精神病学领域向更深入、更贴近临床实践的方向发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集