Mimic-IV-ICD

arXiv2023-04-27 更新2024-08-06 收录

下载链接：

http://arxiv.org/abs/2304.13998v1

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个用于ICD-10编码的公共基准套件，基于MIMIC-IV这一最新的公共电子健康记录数据集构建，旨在标准化数据预处理并建立一个全面的ICD编码基准数据集，促进可重复性和模型比较，加速未来研究中自动化ICD编码的应用。

This dataset is a public benchmark suite for ICD-10 coding. It is constructed based on MIMIC-IV, the latest public electronic health record (EHR) dataset. It aims to standardize data preprocessing, establish a comprehensive benchmark dataset for ICD coding, facilitate reproducibility and model comparison, and accelerate the application of automated ICD coding in future research.

创建时间：

2023-04-27

搜集汇总

数据集介绍

构建方式

在医疗信息学领域，自动化ICD编码研究亟需大规模标准化基准数据集。Mimic-IV-ICD的构建基于MIMIC-IV这一最新的公开电子健康记录数据库，涵盖2008年至2019年间的431,231次住院记录。数据处理流程首先通过患者标识符（subject_id）和住院标识符（hadm_id）将出院摘要与ICD诊断及操作代码表进行关联，形成包含331,669次入院记录的主数据集。随后，依据患者标识符的非重叠原则，将数据划分为训练集、验证集和测试集，划分比例分别为90%、3.33%和6.67%，确保了患者层面的数据独立性。此外，研究还构建了仅包含前50个高频代码的子数据集，并提供了代码层级结构、描述文本及同义词等元信息，以支持不同建模需求。

使用方法

为促进自动化ICD编码研究的可复现性与公平比较，该数据集提供了明确的使用框架。研究者可访问公开的数据处理代码，从原始MIMIC-IV数据中复现基准数据集。模型评估遵循标准的多标签分类指标，包括宏观与微观的AUC、F1分数以及Precision@k。数据集支持两种主要设置：完整代码预测任务以及前50高频代码预测任务。此外，数据集中提供的代码层级关系、描述文本和同义词信息，可用于构建融合外部知识的模型，如利用标签注意力机制或同义词匹配网络。通过遵循既定的数据划分与评估协议，研究者能够系统性地开发新模型，并与已实现的基线方法（如CAML、LAAT、MSMN等）进行性能对比。

背景与挑战

背景概述

随着电子健康记录的广泛普及，海量临床数据为医疗编码自动化研究提供了重要基础。2023年，由新加坡人工智能研究中心、新加坡国立大学、曼彻斯特大学及台湾大学等机构联合发布的Mimic-IV-ICD数据集，旨在构建一个面向极端多标签分类任务的标准化基准。该数据集基于最新的MIMIC-IV公共电子健康记录库，涵盖2008年至2019年间43万余次住院记录，专门针对国际疾病分类（ICD）编码预测这一核心研究问题。通过系统化处理出院小结与ICD-9、ICD-10编码的关联数据，该数据集不仅提供了超过MIMIC-III三倍的数据规模，更首次建立了面向ICD-10编码的公共基准，为临床自然语言处理领域的研究提供了关键基础设施。

当前挑战

在医疗编码自动化领域，Mimic-IV-ICD数据集主要应对两大挑战：其一，极端多标签分类任务本身固有的复杂性，即从数万级动态扩展的ICD编码库中精准匹配医学文本中的临床概念，这要求模型具备处理长尾分布与罕见编码的零样本学习能力；其二，数据集构建过程中面临的技术障碍，包括如何从异构临床记录中提取结构化编码信息、处理ICD-9与ICD-10双编码体系的映射关系，以及确保患者级数据分割的严谨性以避免信息泄漏。此外，医学文本特有的专业术语、缩写变体及叙事性描述，进一步增加了语义对齐与特征提取的难度。

常用场景

经典使用场景

在医疗信息学领域，MIMIC-IV-ICD数据集作为一项新兴的基准资源，其经典使用场景聚焦于极端多标签分类任务，特别是自动化国际疾病分类编码。该数据集整合了MIMIC-IV电子健康记录中的出院摘要与对应的ICD-9及ICD-10代码，为研究人员提供了大规模、标准化的文本-标签配对数据。通过预定义的训练、验证和测试划分，该数据集支持构建和评估深度学习模型，旨在从复杂的临床文档中自动预测数千个疾病与操作代码，从而模拟真实世界医疗编码的高维性和长尾分布特性。

解决学术问题

该数据集有效应对了自动化ICD编码研究中的核心挑战，即处理极端多标签分类问题。传统方法受限于数据规模与代码覆盖范围，难以在包含数万标签的临床文本中实现精准预测。MIMIC-IV-ICD通过提供比前代更丰富的文档数量和独特的ICD代码，尤其是涵盖ICD-10体系，解决了模型在长尾分布和零样本学习场景下的泛化能力不足问题。其标准化预处理流程与基准结果促进了模型的可复现性与公平比较，推动了医疗自然语言处理领域向更复杂、更实用的方向演进。

实际应用

在实际医疗环境中，MIMIC-IV-ICD数据集的应用潜力主要体现在提升临床文档处理的效率与准确性。自动化ICD编码系统可辅助医疗编码员快速分析出院摘要，减少人工审查时间与编码错误，从而优化保险理赔、医院计费及资源分配流程。此外，该数据集支持的预测模型能够集成到电子健康记录系统中，为临床决策支持、流行病学研究和患者预后分析提供结构化数据基础，最终促进医疗服务的智能化与精准化。

数据集最近研究