MENTAT
收藏arXiv2025-02-22 更新2025-02-27 收录
下载链接:
https://github.com/maxlampe/mentat
下载链接
链接失效反馈资源简介:
MENTAT数据集是由美国的精神科医生专家创建和注释的,包含五个关键决策领域的实际问题:治疗、诊断、文档记录、监测和分诊。该数据集旨在捕捉精神科医生在日常护理中遇到的临床推理细微差异和日常模糊性,反映了现有数据集中缺失的护理交付的内在复杂性。数据集包含203个基础问题,每个问题有五个答案选项,且去除了与决策无关的病人人口统计信息,适用于男性、女性或非二元编码的病人。对于涉及模糊性和多个有效答案选项的问题类别,创建了一个带有专家注释不确定性的偏好数据集。
提供机构:
斯坦福大学, 科罗拉多大学, 西北大学, 威斯康星大学, 耶鲁大学, 芝加哥大学, 俄亥俄州立大学
创建时间:
2025-02-22
AI搜集汇总
数据集介绍

构建方式
MENTAT数据集的构建过程由精神科医生专家团队负责,他们设计并标注了203个基础问题,每个问题有五个答案选项。数据集覆盖了精神科日常决策的五个关键领域:治疗、诊断、文档记录、监测和分诊。为了确保数据集的真实性和实用性,专家们故意排除了任何语言模型(LM)的辅助,以确保数据的纯度和避免潜在的偏见。数据集中的问题旨在反映临床实践中遇到的细微临床推理和日常模糊性,而这些问题在现有数据集中是缺失的。此外,数据集还通过使用变量(例如,AGE)替换与决策无关的患者人口统计学信息,并针对男、女或非二元编码的患者提供可用性,从而实现了患者人口统计学信息的多样性。
特点
MENTAT数据集的特点在于它专注于精神科日常决策的复杂性和模糊性,而不是简单的医学考试问题。数据集涵盖了五个关键领域:治疗、诊断、文档记录、监测和分诊。它通过专家设计的多选问题来捕捉精神科医生在现实世界中遇到的模糊性和多义性。此外,MENTAT数据集的独特之处在于它包含了一个偏好数据集,其中包含了专家注释中的不确定性,这对于处理模糊性和多义性问题至关重要。数据集还通过使用变量替换与决策无关的患者人口统计学信息,并针对不同性别的患者提供可用性,从而实现了患者人口统计学信息的多样性。
使用方法
MENTAT数据集的使用方法包括多个方面。首先,研究人员可以直接通过多选题来评估语言模型(LM)在MENTAT的五个类别中的决策能力。这允许对LM在不同任务要求和患者人口统计学条件下的性能进行细粒度比较。其次,MENTAT可以作为评估自由式LM输出的“真实值”参考。这允许将开放式的模型响应与专家注释的选项进行比较,从而平衡结构化和创造性的精神科决策方法。最后,MENTAT的多选题格式和偏好注释允许使用新的评估策略,例如计算来自LM对数概率的交叉熵或Brier分数。这些更复杂的技巧可以促进对模型信心的评估,并使对齐方法能够考虑到专家的不确定性和分歧。
背景与挑战
背景概述
MENTAT数据集是一项由专家创建和注释的成果,它跨越了精神卫生保健中决策制定的五个关键领域:治疗、诊断、文档记录、监测和分诊。该数据集由Max Lamparth等人于2025年创建,旨在捕捉精神卫生保健工作者在日常工作中遇到的细微的临床推理和日常模糊性,反映了现有数据集中缺失的护理交付的内在复杂性。MENTAT数据集包含了203个基础问题,每个问题有五个答案选项,这些问题在男性、女性或非二元编码的患者中可用。对于处理模糊性和多个有效答案选项的问题类别,我们创建了一个带有专家注释不确定性的偏好数据集。MENTAT数据集的研究背景主要针对精神卫生保健领域,旨在为临床决策提供更真实、更贴近实际的评估工具,从而推动精神卫生保健领域人工智能模型的发展。
当前挑战
MENTAT数据集所面临的挑战主要包括:1) 精神卫生保健领域决策制定的复杂性和模糊性,这使得模型在处理真实世界任务时面临困难;2) 数据集规模相对较小,且主要集中在美国医疗体系中,这可能限制了数据集的通用性和可移植性;3) 专家注释过程中可能存在的偏差或错误,需要进一步研究和验证;4) 多选题和自由回答的评估方式无法完全捕捉到现实世界中精神卫生保健决策制定的动态性。MENTAT数据集的创建和评估结果表明,尽管模型在结构化任务上表现良好,但在处理模糊性和不确定性方面仍然存在显著挑战。这表明,MENTAT数据集在推动精神卫生保健领域人工智能模型发展方面具有重要作用,但也提醒我们在将模型应用于临床实践之前,需要更加谨慎和深入地进行研究和评估。
常用场景
经典使用场景
MENTAT数据集的经典使用场景是作为评估和训练医疗语言模型(LM)的基准。该数据集涵盖了精神医疗保健中五个关键决策领域:治疗、诊断、记录、监测和分诊。MENTAT数据集通过提供临床医生注解的日常任务和真实世界的模糊性问题,帮助模型理解和应对精神医疗保健中固有的复杂性。
衍生相关工作
MENTAT数据集衍生了相关的工作,例如评估和比较不同LM在MENTAT数据集上的性能的研究。这些研究可以帮助研究人员了解LM在处理精神医疗保健中的实际任务和模糊性方面的能力和局限性,并促进LM在精神医疗保健领域的应用。
数据集最近研究
最新研究方向
MENTAT数据集的最新研究方向集中在真实世界中精神卫生保健决策的复杂性,以及如何捕捉医疗保健任务中的日常歧义和临床推理的细微差别。该数据集的设计旨在超越传统的医疗考试问题,转向真实世界的精神科任务,包括治疗、诊断、文档记录、监控和分诊。MENTAT数据集强调临床实践中的实际决策任务,通过专家注释和设计的问题来捕捉精神科医疗保健中固有的歧义性,这对于评估语言模型(LM)在实际临床环境中的表现至关重要。研究还探讨了人口统计学信息对决策过程的影响,以及LM在处理开放性问题时的一致性。MENTAT数据集的最新研究还包括评估不同LM在处理具有多合理答案选项的任务时的性能,以及如何使用该数据集作为评估LM输出的一致性和公平性的基准。
相关研究论文
- 1Moving Beyond Medical Exam Questions: A Clinician-Annotated Dataset of Real-World Tasks and Ambiguity in Mental Healthcare斯坦福大学, 科罗拉多大学, 西北大学, 威斯康星大学, 耶鲁大学, 芝加哥大学, 俄亥俄州立大学 · 2025年
以上内容由AI搜集并总结生成



