DeVisE

Name: DeVisE
Creator: 阿姆斯特丹大学医学中心
Published: 2025-06-18 18:42:22
License: 暂无描述

arXiv2025-06-18 更新2025-06-22 收录

下载链接：

https://github.com/camztag/DeVisE

下载链接

链接失效反馈

官方服务：

资源简介：

DeVisE（人口统计和生命体征评估）是一个用于探测细粒度临床理解的行为测试框架。它包含从MIMIC-IV中提取的ICU出院记录，生成了原始（现实世界）和基于模板（合成）的版本，具有针对人口统计（年龄、性别、种族）和生命体征属性的单变量反事实。数据集包括1000个高质量的手动验证的临床记录，旨在通过评估模型对输入变化的敏感性和对住院时间预测的影响来评估LLMs。

提供机构：

阿姆斯特丹大学医学中心

创建时间：

2025-06-18

原始信息汇总

DeVisE 数据集概述

数据集名称

Demographic Vital signs Evaluation Framework - Medical LLMs Behavioral Testing (DeVisE)

数据集简介

DeVisE 是一个用于评估医学大型语言模型（Medical LLMs）行为测试的框架，专注于人口统计学和生命体征的评估。

数据集用途

医学大型语言模型的行为测试
人口统计学和生命体征相关的评估

数据集特点

专为医学领域设计
关注人口统计学和生命体征的评估

搜集汇总

数据集介绍

构建方式

DeVisE数据集基于MIMIC-IV重症监护病房出院记录构建，采用真实临床记录与模板化合成记录双轨制设计。研究团队从原始病历中提取入院时关键信息（主诉、现病史、体格检查等），并通过人工验证确保数据质量。针对人口统计学（年龄、性别、种族）和生命体征（心率、血压等）变量，采用单变量反事实生成策略，每个变量生成5个对照值，最终形成1000份经人工核验的临床笔记及其反事实变体。

特点

该数据集的核心特色在于其行为测试框架设计，通过控制单一变量的反事实对比，可精确评估模型对临床敏感因素的响应模式。包含真实场景的噪声数据与纯净的模板化数据双重版本，支持模型在自然语言理解与结构化推理能力的对比研究。生命体征数据采用临床指南定义的严重程度分级体系，人口统计学变量覆盖四大年龄分段及多种族群体，为医疗公平性研究提供多维评估基准。

使用方法

研究者可通过两种路径利用该数据集：输入层面分析模型对反事实修改的敏感度（如计算日志概率变化），或下游任务评估（如住院时长预测）。支持零样本测试与微调测试双模式，适用于通用大模型与医学专用模型的对比研究。使用建议包括：基于Jensen-Shannon散度分析预测分布变化，通过预期住院时长偏移评估临床合理性，并特别关注人口统计学变量对预测结果的潜在偏差影响。

背景与挑战

背景概述

DeVisE（Demographics and Vital signs Evaluation）是由阿姆斯特丹大学医学信息学系、Koç大学和Hacettepe大学的研究团队于2025年提出的医疗大型语言模型（LLMs）行为测试框架。该数据集基于MIMIC-IV重症监护病房出院记录构建，包含1000份经过人工验证的临床笔记，通过生成原始（真实世界）和模板化（合成）版本，针对人口统计学（年龄、性别、种族）和生命体征属性设计受控单变量反事实。DeVisE的核心研究问题是评估LLMs在临床决策支持中的细粒度医学推理能力，而非依赖表面模式。该数据集的推出填补了传统医疗评估方法（如AUROC和F1分数）在揭示模型真实临床理解能力方面的不足，为开发更安全、透明的医疗AI系统提供了重要工具。

当前挑战

DeVisE面临的挑战主要体现在两个方面：领域问题挑战和构建过程挑战。在领域问题方面，该数据集旨在解决医疗LLMs对人口统计学和生命体征变化的敏感性评估难题，但现有模型在反事实推理中表现出不稳定性和人口统计学偏见，例如零样本模型虽呈现更连贯的反事实推理模式，但对临床有意义的变化响应不足；而微调模型则倾向于稳定但反应迟钝。在构建过程中，挑战包括从嘈杂的真实临床笔记中提取关键变量（如通过少样本提示从体格检查部分提取生命体征值），以及确保反事实修改的准确性（自动提取的生命体征存在5%错误率需人工校正）。此外，模板化笔记的清洁环境与原始笔记的噪声语境之间的行为差异，也增加了评估体系设计的复杂性。

常用场景

经典使用场景

DeVisE数据集在医疗大型语言模型（LLM）的行为测试中具有重要应用。该数据集基于MIMIC-IV出院摘要构建，通过生成真实世界和基于模板的临床笔记，结合单变量反事实，用于评估模型对人口统计学（如年龄、性别、种族）和生命体征（如心率、血压）的敏感性。其经典使用场景包括零样本和微调设置下的模型评估，帮助研究者理解模型在临床决策支持中的推理能力。

实际应用

在实际应用中，DeVisE为开发更安全、透明的医疗AI系统提供了工具。例如，医院可利用该数据集测试临床决策支持系统的稳定性，确保模型输出符合医学逻辑。其反事实设计还能帮助识别模型偏见，如在预测住院时长时对特定人口群体的敏感性差异，从而指导公平性优化。

衍生相关工作

DeVisE衍生了一系列关于医疗LLM评估的研究，如Lee等人（2025）对模型鲁棒性的分析，以及Van Aken等人（2021a）对人口统计学敏感性的探索。这些工作扩展了行为测试在临床NLP中的应用，推动了模板与原始笔记对比评估等新范式。数据集还启发了针对特定临床任务（如不良药物事件分类）的细粒度测试方法。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集