MENTAT

Name: MENTAT
Creator: 斯坦福大学, 科罗拉多大学, 西北大学, 威斯康星大学, 耶鲁大学, 芝加哥大学, 俄亥俄州立大学
Published: 2025-02-22 11:10:16
License: 暂无描述

arXiv2025-02-22 更新2025-02-27 收录

下载链接：

https://github.com/maxlampe/mentat

下载链接

链接失效反馈

官方服务：

资源简介：

MENTAT数据集是由美国的精神科医生专家创建和注释的，包含五个关键决策领域的实际问题：治疗、诊断、文档记录、监测和分诊。该数据集旨在捕捉精神科医生在日常护理中遇到的临床推理细微差异和日常模糊性，反映了现有数据集中缺失的护理交付的内在复杂性。数据集包含203个基础问题，每个问题有五个答案选项，且去除了与决策无关的病人人口统计信息，适用于男性、女性或非二元编码的病人。对于涉及模糊性和多个有效答案选项的问题类别，创建了一个带有专家注释不确定性的偏好数据集。

The MENTAT dataset was developed and annotated by American psychiatric experts, encompassing real-world clinical questions across five core decision-making domains: treatment, diagnosis, documentation, monitoring, and triage. This dataset is designed to capture the nuanced differences in clinical reasoning and everyday ambiguities faced by psychiatrists in routine clinical care, reflecting the inherent complexities of care delivery that are missing from existing datasets. The dataset contains 203 foundational questions, each with five answer options, and eliminates patient demographic information irrelevant to decision-making, making it applicable to male, female, or non-binary coded patients. For question categories involving ambiguity and multiple valid answer options, a preference dataset annotated with expert-derived uncertainty was created.

提供机构：

斯坦福大学, 科罗拉多大学, 西北大学, 威斯康星大学, 耶鲁大学, 芝加哥大学, 俄亥俄州立大学

创建时间：

2025-02-22

搜集汇总

数据集介绍

构建方式

MENTAT数据集的构建过程由精神科医生专家团队负责，他们设计并标注了203个基础问题，每个问题有五个答案选项。数据集覆盖了精神科日常决策的五个关键领域：治疗、诊断、文档记录、监测和分诊。为了确保数据集的真实性和实用性，专家们故意排除了任何语言模型（LM）的辅助，以确保数据的纯度和避免潜在的偏见。数据集中的问题旨在反映临床实践中遇到的细微临床推理和日常模糊性，而这些问题在现有数据集中是缺失的。此外，数据集还通过使用变量（例如，AGE）替换与决策无关的患者人口统计学信息，并针对男、女或非二元编码的患者提供可用性，从而实现了患者人口统计学信息的多样性。

特点

MENTAT数据集的特点在于它专注于精神科日常决策的复杂性和模糊性，而不是简单的医学考试问题。数据集涵盖了五个关键领域：治疗、诊断、文档记录、监测和分诊。它通过专家设计的多选问题来捕捉精神科医生在现实世界中遇到的模糊性和多义性。此外，MENTAT数据集的独特之处在于它包含了一个偏好数据集，其中包含了专家注释中的不确定性，这对于处理模糊性和多义性问题至关重要。数据集还通过使用变量替换与决策无关的患者人口统计学信息，并针对不同性别的患者提供可用性，从而实现了患者人口统计学信息的多样性。

使用方法

MENTAT数据集的使用方法包括多个方面。首先，研究人员可以直接通过多选题来评估语言模型（LM）在MENTAT的五个类别中的决策能力。这允许对LM在不同任务要求和患者人口统计学条件下的性能进行细粒度比较。其次，MENTAT可以作为评估自由式LM输出的“真实值”参考。这允许将开放式的模型响应与专家注释的选项进行比较，从而平衡结构化和创造性的精神科决策方法。最后，MENTAT的多选题格式和偏好注释允许使用新的评估策略，例如计算来自LM对数概率的交叉熵或Brier分数。这些更复杂的技巧可以促进对模型信心的评估，并使对齐方法能够考虑到专家的不确定性和分歧。

背景与挑战

背景概述

MENTAT数据集是一项由专家创建和注释的成果，它跨越了精神卫生保健中决策制定的五个关键领域：治疗、诊断、文档记录、监测和分诊。该数据集由Max Lamparth等人于2025年创建，旨在捕捉精神卫生保健工作者在日常工作中遇到的细微的临床推理和日常模糊性，反映了现有数据集中缺失的护理交付的内在复杂性。MENTAT数据集包含了203个基础问题，每个问题有五个答案选项，这些问题在男性、女性或非二元编码的患者中可用。对于处理模糊性和多个有效答案选项的问题类别，我们创建了一个带有专家注释不确定性的偏好数据集。MENTAT数据集的研究背景主要针对精神卫生保健领域，旨在为临床决策提供更真实、更贴近实际的评估工具，从而推动精神卫生保健领域人工智能模型的发展。

当前挑战

MENTAT数据集所面临的挑战主要包括：1) 精神卫生保健领域决策制定的复杂性和模糊性，这使得模型在处理真实世界任务时面临困难；2) 数据集规模相对较小，且主要集中在美国医疗体系中，这可能限制了数据集的通用性和可移植性；3) 专家注释过程中可能存在的偏差或错误，需要进一步研究和验证；4) 多选题和自由回答的评估方式无法完全捕捉到现实世界中精神卫生保健决策制定的动态性。MENTAT数据集的创建和评估结果表明，尽管模型在结构化任务上表现良好，但在处理模糊性和不确定性方面仍然存在显著挑战。这表明，MENTAT数据集在推动精神卫生保健领域人工智能模型发展方面具有重要作用，但也提醒我们在将模型应用于临床实践之前，需要更加谨慎和深入地进行研究和评估。

常用场景

经典使用场景

MENTAT数据集的经典使用场景是作为评估和训练医疗语言模型（LM）的基准。该数据集涵盖了精神医疗保健中五个关键决策领域：治疗、诊断、记录、监测和分诊。MENTAT数据集通过提供临床医生注解的日常任务和真实世界的模糊性问题，帮助模型理解和应对精神医疗保健中固有的复杂性。

衍生相关工作

MENTAT数据集衍生了相关的工作，例如评估和比较不同LM在MENTAT数据集上的性能的研究。这些研究可以帮助研究人员了解LM在处理精神医疗保健中的实际任务和模糊性方面的能力和局限性，并促进LM在精神医疗保健领域的应用。

数据集最近研究