MIMIC-III v1.4

Name: MIMIC-III v1.4
Creator: 麻省理工学院计算机科学与人工智能实验室
Published: 2018-03-07 23:51:11
License: 暂无描述

arXiv2018-03-07 更新2024-08-06 收录

下载链接：

http://arxiv.org/abs/1803.02728v1

下载链接

链接失效反馈

官方服务：

资源简介：

MIMIC-III v1.4是由麻省理工学院计算生理学实验室开发的一个公开数据集，包含61,532次ICU住院记录和46,520名患者的详细信息。该数据集特别之处在于其包含了超过200万条去标识化的临床笔记，这些笔记中约有12.5百万个PHI实例。数据集的创建过程涉及使用规则基础系统对临床笔记进行去标识化处理，并使用合成标识技术替换PHI为合理的替代值。MIMIC-III v1.4的应用领域主要集中在医疗研究，特别是用于开发和评估去标识化工具，以保护患者隐私同时促进医疗数据的共享和研究。

MIMIC-III v1.4 is a publicly available dataset developed by the Laboratory for Computational Physiology at the Massachusetts Institute of Technology (MIT). It contains 61,532 ICU admissions and detailed clinical information from 46,520 unique patients. A notable feature of this dataset is its inclusion of over 2 million de-identified clinical notes, which encompass approximately 12.5 million instances of Protected Health Information (PHI). The dataset's development process involved using rule-based systems to de-identify clinical notes, and synthetic identifier technology to replace PHI with plausible surrogate values. The primary application areas of MIMIC-III v1.4 are focused on medical research, particularly for developing and evaluating de-identification tools to protect patient privacy while promoting the sharing of medical data and advancing medical research.

提供机构：

麻省理工学院计算机科学与人工智能实验室

创建时间：

2018-03-07

搜集汇总

数据集介绍

构建方式

MIMIC-III v1.4数据集的构建基于MIT实验室的计算生理学研究，涵盖了46,520名患者的61,532次ICU住院记录。该数据集包含超过200万条去标识化的临床笔记，涉及近500百万个标记和1250万条受保护健康信息（PHI）实例。为了确保数据的公开可用性，研究团队开发了一套基于规则的PHI去标识化系统，并通过替换合理的替代值来生成合成标识的临床笔记。例如，将“[**患者姓名**]访问[**医院**]”替换为“Mary Smith访问MGH”。

使用方法

MIMIC-III v1.4数据集主要用于开发和评估临床自然语言处理（NLP）工具，特别是自动去标识化系统。研究人员可以通过该数据集训练和测试模型，以识别和去除临床笔记中的敏感信息。数据集的使用方法包括加载和解析临床笔记，提取PHI实例，并利用条件随机场（CRF）等统计模型进行去标识化实验。此外，数据集还可用于研究临床笔记的语义分析和信息提取，为医疗研究提供支持。

背景与挑战

背景概述

MIMIC-III v1.4数据集由麻省理工学院计算生理学实验室开发，首次发布于2016年，旨在为重症监护病房（ICU）的研究提供丰富的临床数据。该数据集包含了46,520名患者的61,532次ICU住院记录，涵盖了超过200万条去标识化的临床笔记，涉及近500百万个词汇和1250万条受保护的健康信息（PHI）实例。MIMIC-III的创建标志着临床自然语言处理（NLP）领域的一个重要里程碑，特别是在去标识化工具的开发和评估方面。通过提供大规模的临床数据，MIMIC-III极大地推动了医疗信息学的研究，尤其是在患者隐私保护与数据共享之间的平衡问题上。

当前挑战

MIMIC-III数据集在解决临床笔记去标识化问题时面临多重挑战。首先，去标识化工具的开发和评估需要大量包含PHI的临床笔记，但这些笔记在未经处理前无法公开共享，形成了一个典型的“鸡与蛋”问题。其次，尽管现有的去标识化系统在召回率上表现优异，但其精确度仍有待提高，尤其是在处理多词PHI实例时，误报率较高。此外，构建过程中，如何确保替代的PHI数据既合理又不失多样性，也是一个技术难题。最后，临床笔记的自由格式和复杂性使得自动去标识化系统的开发更加困难，尤其是在处理非结构化文本时，模型需要具备强大的上下文理解能力。

常用场景

经典使用场景

MIMIC-III v1.4数据集在临床自然语言处理（NLP）领域中被广泛用于开发和评估去识别化工具。该数据集包含了大量的去识别化临床笔记，这些笔记经过处理，移除了敏感的个人健康信息（PHI），并用合理的替代值替换。这使得研究人员能够在保护患者隐私的前提下，利用这些数据进行模型训练和算法优化。

解决学术问题

MIMIC-III v1.4数据集解决了临床NLP领域中的一个关键问题：如何在保护患者隐私的同时，提供足够的数据支持去识别化工具的开发。通过提供大量去识别化的临床笔记，该数据集为研究人员提供了一个宝贵的资源，用于训练和测试去识别化算法，从而推动了临床NLP技术的发展。

实际应用

在实际应用中，MIMIC-III v1.4数据集被广泛应用于医院和医疗研究机构，用于开发自动去识别化系统。这些系统能够高效地处理大量的电子健康记录（EHR），确保在数据共享和分析过程中患者的隐私得到充分保护。此外，该数据集还被用于研究患者生理状态的预测模型，帮助医生更好地理解和管理重症监护病房（ICU）中的患者。

数据集最近研究