MIMIC-IV-Note

Name: MIMIC-IV-Note
Creator: Beth Israel Deaconess Medical Center
License: 暂无描述

arXiv2025-09-30 收录

下载链接：

https://www.physionet.org/content/mimic-iv-note/2.2/

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集名为MIMIC-IV-Note，包含了来自麻省总医院和BIDMC急诊部门收治的145,915名患者的33万1千7百94份去标识化出院总结。该数据集通常与MIMIC-IV和MIMIC-CXR数据集结合使用，通过提供文本数据来提高预测的准确性。其规模达到33万1千7百94份出院总结，主要任务是用以预测医院再入院情况。

The dataset is named MIMIC-IV-Note, which houses 331,794 de-identified discharge summaries from 145,915 patients admitted to the emergency departments of Massachusetts General Hospital and BIDMC. It is frequently used in combination with the MIMIC-IV and MIMIC-CXR datasets, offering textual data to boost the accuracy of predictive models. With a total corpus of 331,794 discharge summaries, its primary task is to predict hospital readmission.

提供机构：

Beth Israel Deaconess Medical Center

搜集汇总

数据集介绍

构建方式

MIMIC-IV-Note 数据集源自贝斯以色列女执事医疗中心的 331,794 份去标识化出院记录，涵盖 145,915 名患者的多样化临床场景。研究团队通过正则表达式清洗原始文本，去除特殊字符与冗余内容，并以换行符分割各临床章节以形成结构化标题。随后，利用 HuggingFace 预训练分词器进一步处理，从每份临床记录中提取“简要住院病程”（BHC）作为输出标签，构建了包含 270,033 个临床笔记与 BHC 配对样本的标注数据集。为适配不同模型，数据集按输入令牌长度分为 0–1,024、1,024–2,048 和 2,048–4,096 三个上下文长度区间，并通过随机采样生成独立的训练与测试子集，确保评估的无偏性。

特点

该数据集的核心特点在于其专注于 BHC 摘要生成任务，提供了临床笔记与对应 BHC 的精准配对，平均输入令牌长度为 2,267 ± 914，输出长度为 564 ± 410，涵盖了从简短到长篇的多样上下文长度。其分区间设计使研究者能够系统评估模型在不同输入长度下的鲁棒性，尤其是针对长文本摘要的挑战。此外，数据集保留了患者性别等人口统计学信息，支持公平性分析，如亚组差异评估。与原始 MIMIC-IV 笔记相比，该预处理版本显著降低了噪声，提升了训练效率，为领域自适应语言模型的量化与质性评估提供了标准化基准。

使用方法

使用者可将临床笔记作为输入，通过提示学习或微调策略适配大语言模型以生成 BHC。研究推荐采用零样本提示、前缀提示、上下文学习及量化低秩适应（QLoRA）等方法，其中 QLoRA 微调后的 Llama2-13B 在 BLEU 和 BERT-Score 上表现优异，而 GPT-4 结合上下文学习在长文本输入中更具鲁棒性。评估时，建议结合 BLEU、ROUGE-L 等语法相似度指标与 BERT-Score 等语义指标进行量化分析，并辅以临床专家对全面性、简洁性、事实正确性和流畅性的质性评审。数据集的子集划分支持跨上下文长度的独立测试，便于复现研究或拓展至多文档摘要场景。

背景与挑战

背景概述

临床文档的撰写是医疗实践中不可或缺的环节，然而，冗长的记录过程显著占用了医务人员的宝贵时间，甚至可能因信息疏漏或错误而对患者安全构成威胁。在此背景下，自动生成住院病程摘要（Brief Hospital Course, BHC）成为缓解临床文书负担、提升医疗效率的关键研究方向。MIMIC-IV-Note数据集由Asad Aali等研究人员于2024年从贝斯以色列女执事医疗中心的原始临床记录中提取并构建，旨在为大语言模型在BHC生成任务中的领域适应提供标准化基准。该数据集包含270,033对临床笔记与对应BHC，覆盖从简短到超长上下文的多样场景，为评估和比较不同规模及架构的大语言模型（如Llama2-13B、GPT-4）在临床文本摘要中的表现提供了核心资源，对推动人工智能在医疗文档自动化领域的应用具有深远影响。

当前挑战

MIMIC-IV-Note数据集所面临的挑战首先体现在领域问题的复杂性：临床笔记包含大量非结构化文本、专业术语及多源信息（如病史、检验结果、用药记录），要求模型在生成BHC时同时兼顾全面性、简洁性、事实准确性与流畅性，这对模型的语义理解与长文本建模能力提出了极高要求。其次，数据集构建过程亦充满挑战：原始MIMIC-IV笔记需经过复杂的正则表达式清洗、章节分割及噪声去除，以提取高质量的临床笔记-BHC配对；同时，为确保模型评估的公平性，还需按上下文长度分层抽样，并设计独立的训练与测试集，以防止数据泄露。此外，不同模型（如Clinical-T5-Large）在患者报告性别亚组中表现出显著性能波动，凸显了在临床部署中需谨慎评估模型公平性与鲁棒性的挑战。

常用场景

经典使用场景

MIMIC-IV-Note数据集的核心经典使用场景在于构建和评估从临床笔记自动生成简要住院病程摘要（BHC）的深度学习模型。该数据集提供了结构化的临床笔记与对应BHC配对样本，使研究者能够利用大规模语言模型（LLMs）进行序列到序列的文本摘要任务。通过将冗长、多段落的临床记录压缩为精炼的病程总结，该数据集为临床文本自动摘要领域树立了标准化基准，尤其适用于验证不同规模、不同架构的LLMs在医疗文档处理中的表现。

衍生相关工作

基于MIMIC-IV-Note，研究者已衍生出多项经典工作，例如使用QLoRA微调Llama2-13B实现高性能BHC摘要生成，以及通过上下文学习（ICL）提升GPT-4在长文本输入下的鲁棒性。此外，该数据集催生了Clinical-T5等医疗专用语言模型的预训练基准，并推动了多文档病程摘要数据集（如BHCD）的构建。在方法层面，它促进了轻量级领域适配策略（如参数高效微调）在医疗NLP中的广泛应用，以及定量与定性相结合的综合评估框架的建立。

数据集最近研究