five

Mimic-IV-ICD

收藏
arXiv2023-04-27 更新2024-08-06 收录
下载链接:
http://arxiv.org/abs/2304.13998v1
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是一个用于ICD-10编码的公共基准套件,基于MIMIC-IV这一最新的公共电子健康记录数据集构建,旨在标准化数据预处理并建立一个全面的ICD编码基准数据集,促进可重复性和模型比较,加速未来研究中自动化ICD编码的应用。

This dataset is a public benchmark suite for ICD-10 coding. It is constructed based on MIMIC-IV, the latest public electronic health record (EHR) dataset. It aims to standardize data preprocessing, establish a comprehensive benchmark dataset for ICD coding, facilitate reproducibility and model comparison, and accelerate the application of automated ICD coding in future research.
创建时间:
2023-04-27
搜集汇总
数据集介绍
main_image_url
构建方式
在医疗信息学领域,自动化ICD编码研究亟需大规模标准化基准数据集。Mimic-IV-ICD的构建基于MIMIC-IV这一最新的公开电子健康记录数据库,涵盖2008年至2019年间的431,231次住院记录。数据处理流程首先通过患者标识符(subject_id)和住院标识符(hadm_id)将出院摘要与ICD诊断及操作代码表进行关联,形成包含331,669次入院记录的主数据集。随后,依据患者标识符的非重叠原则,将数据划分为训练集、验证集和测试集,划分比例分别为90%、3.33%和6.67%,确保了患者层面的数据独立性。此外,研究还构建了仅包含前50个高频代码的子数据集,并提供了代码层级结构、描述文本及同义词等元信息,以支持不同建模需求。
使用方法
为促进自动化ICD编码研究的可复现性与公平比较,该数据集提供了明确的使用框架。研究者可访问公开的数据处理代码,从原始MIMIC-IV数据中复现基准数据集。模型评估遵循标准的多标签分类指标,包括宏观与微观的AUC、F1分数以及Precision@k。数据集支持两种主要设置:完整代码预测任务以及前50高频代码预测任务。此外,数据集中提供的代码层级关系、描述文本和同义词信息,可用于构建融合外部知识的模型,如利用标签注意力机制或同义词匹配网络。通过遵循既定的数据划分与评估协议,研究者能够系统性地开发新模型,并与已实现的基线方法(如CAML、LAAT、MSMN等)进行性能对比。
背景与挑战
背景概述
随着电子健康记录的广泛普及,海量临床数据为医疗编码自动化研究提供了重要基础。2023年,由新加坡人工智能研究中心、新加坡国立大学、曼彻斯特大学及台湾大学等机构联合发布的Mimic-IV-ICD数据集,旨在构建一个面向极端多标签分类任务的标准化基准。该数据集基于最新的MIMIC-IV公共电子健康记录库,涵盖2008年至2019年间43万余次住院记录,专门针对国际疾病分类(ICD)编码预测这一核心研究问题。通过系统化处理出院小结与ICD-9、ICD-10编码的关联数据,该数据集不仅提供了超过MIMIC-III三倍的数据规模,更首次建立了面向ICD-10编码的公共基准,为临床自然语言处理领域的研究提供了关键基础设施。
当前挑战
在医疗编码自动化领域,Mimic-IV-ICD数据集主要应对两大挑战:其一,极端多标签分类任务本身固有的复杂性,即从数万级动态扩展的ICD编码库中精准匹配医学文本中的临床概念,这要求模型具备处理长尾分布与罕见编码的零样本学习能力;其二,数据集构建过程中面临的技术障碍,包括如何从异构临床记录中提取结构化编码信息、处理ICD-9与ICD-10双编码体系的映射关系,以及确保患者级数据分割的严谨性以避免信息泄漏。此外,医学文本特有的专业术语、缩写变体及叙事性描述,进一步增加了语义对齐与特征提取的难度。
常用场景
经典使用场景
在医疗信息学领域,MIMIC-IV-ICD数据集作为一项新兴的基准资源,其经典使用场景聚焦于极端多标签分类任务,特别是自动化国际疾病分类编码。该数据集整合了MIMIC-IV电子健康记录中的出院摘要与对应的ICD-9及ICD-10代码,为研究人员提供了大规模、标准化的文本-标签配对数据。通过预定义的训练、验证和测试划分,该数据集支持构建和评估深度学习模型,旨在从复杂的临床文档中自动预测数千个疾病与操作代码,从而模拟真实世界医疗编码的高维性和长尾分布特性。
解决学术问题
该数据集有效应对了自动化ICD编码研究中的核心挑战,即处理极端多标签分类问题。传统方法受限于数据规模与代码覆盖范围,难以在包含数万标签的临床文本中实现精准预测。MIMIC-IV-ICD通过提供比前代更丰富的文档数量和独特的ICD代码,尤其是涵盖ICD-10体系,解决了模型在长尾分布和零样本学习场景下的泛化能力不足问题。其标准化预处理流程与基准结果促进了模型的可复现性与公平比较,推动了医疗自然语言处理领域向更复杂、更实用的方向演进。
实际应用
在实际医疗环境中,MIMIC-IV-ICD数据集的应用潜力主要体现在提升临床文档处理的效率与准确性。自动化ICD编码系统可辅助医疗编码员快速分析出院摘要,减少人工审查时间与编码错误,从而优化保险理赔、医院计费及资源分配流程。此外,该数据集支持的预测模型能够集成到电子健康记录系统中,为临床决策支持、流行病学研究和患者预后分析提供结构化数据基础,最终促进医疗服务的智能化与精准化。
数据集最近研究
最新研究方向
在医疗信息学领域,随着电子健康记录(EHR)的广泛应用,自动ICD编码已成为提升临床效率与准确性的关键研究方向。Mimic-IV-ICD数据集的推出,为极端多标签分类任务提供了新的基准,其基于MIMIC-IV这一最新公共EHR数据集,覆盖了ICD-9和ICD-10编码系统,包含超过26,000个独特代码,显著扩展了先前MIMIC-III的规模。前沿研究聚焦于利用预训练语言模型(如PLM-ICD)和外部知识增强方法(如MSMN),以应对医疗文本中专业词汇丰富、标签分布长尾的挑战。这些模型通过结合代码描述、层次结构或同义词知识,优化文档与标签间的语义匹配,旨在减少人工编码错误,促进医疗资源合理分配。该数据集的开放基准和标准化处理流程,加速了自动化ICD编码模型的比较与复现,为临床决策支持系统的发展提供了重要推动力。
相关研究论文
  • 1
    Mimic-IV-ICD: A new benchmark for eXtreme MultiLabel Classification · 2023年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作