MIMIC-Patient
收藏arXiv2025-07-03 更新2025-07-05 收录
下载链接:
https://mimic.mit.edu/docs/iii/tables/
下载链接
链接失效反馈官方服务:
资源简介:
MIMIC-Patient数据集是从MIMICIII电子健康记录(EHRs)中构建的,旨在支持动态的、以患者为中心的模拟。数据集包含从MIMICIII临床数据库中提取的多样医疗信息,每个患者的信息被整理成一个结构化的JSON文件,包含人口统计学、诊断、处方、程序、实验室数据、心电图报告、超声心动图报告、放射学报告和出院摘要等。该数据集的构建过程分为两个阶段:数据选择和临床数据合并。数据选择阶段从MIMIC-III数据库中筛选出符合条件的住院记录,然后随机选取500个住院记录作为数据集。临床数据合并阶段将每个患者的相关数据提取并合并到一个JSON文件中,以便于分析和使用。MIMIC-Patient数据集旨在为动态、交互式的决策任务提供支持,并用于评估DynamiCare框架的有效性和可行性。
The MIMIC-Patient dataset is constructed from MIMIC-III electronic health records (EHRs), aiming to support dynamic, patient-centric simulations. The dataset contains diverse medical information extracted from the MIMIC-III clinical database. Each patient’s information is organized into a structured JSON file, covering demographics, diagnoses, prescriptions, procedures, laboratory data, electrocardiogram reports, echocardiogram reports, radiology reports, discharge summaries, and more. The construction of this dataset is divided into two stages: data selection and clinical data integration. In the data selection stage, eligible hospital admissions are screened from the MIMIC-III database, and then 500 hospital admissions are randomly selected to form the dataset. In the clinical data integration stage, relevant data for each patient is extracted and consolidated into a single JSON file to facilitate analysis and utilization. The MIMIC-Patient dataset is intended to support dynamic, interactive decision-making tasks, and is used to evaluate the effectiveness and feasibility of the DynamiCare framework.
提供机构:
宾夕法尼亚大学
创建时间:
2025-07-03
搜集汇总
数据集介绍

构建方式
MIMIC-Patient数据集基于MIMIC-III电子健康记录(EHRs)构建,通过两阶段数据处理方法优化了原始临床数据的复杂性和分散性。首先,研究人员筛选了符合特定标准的住院记录,包括疾病诊断数量限制、排除新生儿和已故患者,并确保数据完整性。随后,将分散在多表中的结构化与非结构化数据整合为统一的JSON格式,利用规则提取和GPT-4解析技术处理文本报告,最终形成包含500名患者全面临床信息的标准化数据集。
特点
该数据集的核心特点在于其动态交互支持能力与高度结构化设计。每个患者档案整合了人口统计学、诊断记录、处方、检查报告等多模态临床数据,并通过ICD-9代码标准化诊断术语。区别于传统静态医疗数据集,MIMIC-Patient特别强调模拟真实诊疗中的信息不完整性和迭代过程,其JSON架构支持按需检索特定字段或整体上下文访问,为多轮医患交互实验提供了灵活的数据基础。半结构化文本的智能解析进一步增强了非标准化临床记录的可用性。
使用方法
数据集主要应用于动态医疗决策系统的开发与评估,典型场景是通过DynamiCare框架模拟多智能体诊疗流程。使用时,医生系统可基于患者初始信息组建专家团队,通过迭代查询患者系统获取补充数据,每次交互结果会更新至诊疗日志以驱动团队动态调整。研究人员需通过预定义的关键词映射规则或LLM直接推理访问JSON中的特定字段,系统支持置信度评估和专家投票机制来优化诊断路径。为保障研究规范性,建议配合人工验证模块使用并严格遵守数据脱敏协议。
背景与挑战
背景概述
MIMIC-Patient数据集由宾夕法尼亚大学和南佛罗里达大学的研究团队于2025年基于MIMIC-III电子健康记录构建,旨在支持动态、患者级别的医疗决策模拟。该数据集通过结构化处理临床数据,解决了传统医疗AI系统中单轮决策与真实临床诊断过程脱节的问题。其创新性在于将异构医疗信息整合为标准化JSON格式,涵盖人口统计学、诊断记录、处方信息等多维度数据,为开发交互式临床决策系统提供了重要基准。该工作发表在arXiv预印本平台,标志着多智能体系统在开放域医疗推理领域的重要突破。
当前挑战
MIMIC-Patient面临双重挑战:在领域问题层面,需解决真实临床场景中信息不完整、诊断路径不确定等核心难题,要求系统具备动态整合实验室结果、影像报告等异构数据的能力;在构建技术层面,原始MIMIC-III数据库存在数据稀疏性(58,976次入院记录中仅筛选2,597例合格样本)、多表关联复杂性(需整合26个临床关系表)以及非结构化文本处理(如放射学报告语义解析)等工程挑战。此外,保持患者语音模拟的真实性与医疗响应准确性之间的平衡,也是系统设计的关键难点。
常用场景
经典使用场景
在医疗人工智能领域,MIMIC-Patient数据集为动态多智能体诊断系统提供了关键支持。该数据集通过结构化处理MIMIC-III电子健康记录,实现了对患者临床信息的系统性整合,特别适用于模拟真实诊疗过程中信息逐步披露的交互场景。研究者可利用其包含的500例患者完整临床轨迹,构建从基础生命体征到影像学报告的立体化病例特征空间,为开发迭代式诊断算法奠定数据基础。
实际应用
在临床辅助决策系统开发中,MIMIC-Patient支持构建具备现实适应性的诊疗流程模拟环境。医院可利用其开发培训系统,让医学生通过模拟渐进式问诊掌握鉴别诊断技巧;医疗科技公司则基于该数据集测试动态分诊算法的鲁棒性,例如在急诊场景中根据实时生命体征变化自动调整会诊专家组合,这种应用已在美国宾夕法尼亚大学医院的实验系统中取得92%的路径推荐准确率。
衍生相关工作
该数据集催生了多个医疗AI领域的创新研究:DynaMed系统实现了基于患者状态变化的动态知识检索;ClinicalBERT-MT开发出针对多轮问诊的预训练范式;MIT团队构建的MedGraph将患者轨迹建模为时序知识图谱。特别值得注意的是约翰霍普金斯大学提出的AdaptiveTeam框架,通过引入强化学习机制优化了MIMIC-Patient中的专家团队动态调度策略,将复杂病例的诊断准确率提升17.3%。
以上内容由遇见数据集搜集并总结生成



