five

MIMIC-III v1.4|医疗数据数据集|去标识化数据集

收藏
arXiv2018-03-07 更新2024-08-06 收录
医疗数据
去标识化
下载链接:
http://arxiv.org/abs/1803.02728v1
下载链接
链接失效反馈
资源简介:
MIMIC-III v1.4是由麻省理工学院计算生理学实验室开发的一个公开数据集,包含61,532次ICU住院记录和46,520名患者的详细信息。该数据集特别之处在于其包含了超过200万条去标识化的临床笔记,这些笔记中约有12.5百万个PHI实例。数据集的创建过程涉及使用规则基础系统对临床笔记进行去标识化处理,并使用合成标识技术替换PHI为合理的替代值。MIMIC-III v1.4的应用领域主要集中在医疗研究,特别是用于开发和评估去标识化工具,以保护患者隐私同时促进医疗数据的共享和研究。
提供机构:
麻省理工学院计算机科学与人工智能实验室
创建时间:
2018-03-07
AI搜集汇总
数据集介绍
main_image_url
构建方式
MIMIC-III v1.4数据集的构建基于MIT实验室的计算生理学研究,涵盖了46,520名患者的61,532次ICU住院记录。该数据集包含超过200万条去标识化的临床笔记,涉及近500百万个标记和1250万条受保护健康信息(PHI)实例。为了确保数据的公开可用性,研究团队开发了一套基于规则的PHI去标识化系统,并通过替换合理的替代值来生成合成标识的临床笔记。例如,将“[**患者姓名**]访问[**医院**]”替换为“Mary Smith访问MGH”。
使用方法
MIMIC-III v1.4数据集主要用于开发和评估临床自然语言处理(NLP)工具,特别是自动去标识化系统。研究人员可以通过该数据集训练和测试模型,以识别和去除临床笔记中的敏感信息。数据集的使用方法包括加载和解析临床笔记,提取PHI实例,并利用条件随机场(CRF)等统计模型进行去标识化实验。此外,数据集还可用于研究临床笔记的语义分析和信息提取,为医疗研究提供支持。
背景与挑战
背景概述
MIMIC-III v1.4数据集由麻省理工学院计算生理学实验室开发,首次发布于2016年,旨在为重症监护病房(ICU)的研究提供丰富的临床数据。该数据集包含了46,520名患者的61,532次ICU住院记录,涵盖了超过200万条去标识化的临床笔记,涉及近500百万个词汇和1250万条受保护的健康信息(PHI)实例。MIMIC-III的创建标志着临床自然语言处理(NLP)领域的一个重要里程碑,特别是在去标识化工具的开发和评估方面。通过提供大规模的临床数据,MIMIC-III极大地推动了医疗信息学的研究,尤其是在患者隐私保护与数据共享之间的平衡问题上。
当前挑战
MIMIC-III数据集在解决临床笔记去标识化问题时面临多重挑战。首先,去标识化工具的开发和评估需要大量包含PHI的临床笔记,但这些笔记在未经处理前无法公开共享,形成了一个典型的“鸡与蛋”问题。其次,尽管现有的去标识化系统在召回率上表现优异,但其精确度仍有待提高,尤其是在处理多词PHI实例时,误报率较高。此外,构建过程中,如何确保替代的PHI数据既合理又不失多样性,也是一个技术难题。最后,临床笔记的自由格式和复杂性使得自动去标识化系统的开发更加困难,尤其是在处理非结构化文本时,模型需要具备强大的上下文理解能力。
常用场景
经典使用场景
MIMIC-III v1.4数据集在临床自然语言处理(NLP)领域中被广泛用于开发和评估去识别化工具。该数据集包含了大量的去识别化临床笔记,这些笔记经过处理,移除了敏感的个人健康信息(PHI),并用合理的替代值替换。这使得研究人员能够在保护患者隐私的前提下,利用这些数据进行模型训练和算法优化。
解决学术问题
MIMIC-III v1.4数据集解决了临床NLP领域中的一个关键问题:如何在保护患者隐私的同时,提供足够的数据支持去识别化工具的开发。通过提供大量去识别化的临床笔记,该数据集为研究人员提供了一个宝贵的资源,用于训练和测试去识别化算法,从而推动了临床NLP技术的发展。
实际应用
在实际应用中,MIMIC-III v1.4数据集被广泛应用于医院和医疗研究机构,用于开发自动去识别化系统。这些系统能够高效地处理大量的电子健康记录(EHR),确保在数据共享和分析过程中患者的隐私得到充分保护。此外,该数据集还被用于研究患者生理状态的预测模型,帮助医生更好地理解和管理重症监护病房(ICU)中的患者。
数据集最近研究
最新研究方向
在医疗信息处理领域,MIMIC-III v1.4数据集的最新研究方向聚焦于临床笔记的自动去识别技术。随着电子健康记录(EHR)的广泛应用,保护患者隐私的同时实现数据共享成为研究热点。MIMIC-III v1.4通过提供大量去识别的临床笔记,为开发高效的去识别工具提供了宝贵资源。当前研究利用条件随机场(CRF)等统计模型,探索如何更精确地识别和替换敏感信息,如患者姓名和医院名称。此外,随着深度学习技术的发展,研究者们正致力于利用大规模数据集训练更复杂的模型,以提高去识别的准确性和效率。这些研究不仅推动了医疗信息处理技术的进步,也为患者隐私保护提供了新的解决方案。
相关研究论文
  • 1
    Towards the Creation of a Large Corpus of Synthetically-Identified Clinical Notes麻省理工学院计算机科学与人工智能实验室 · 2018年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国交通事故深度调查(CIDAS)数据集

交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息,以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例,单个案例信息包含人、车 、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征,探索事故预防和损伤防护措施的关键数据源,为制定汽车安全法规和标准、完善汽车测评试验规程、

北方大数据交易中心 收录

中国空气质量数据集(2014-2020年)

数据集中的空气质量数据类型包括PM2.5, PM10, SO2, NO2, O3, CO, AQI,包含了2014-2020年全国360个城市的逐日空气质量监测数据。监测数据来自中国环境监测总站的全国城市空气质量实时发布平台,每日更新。数据集的原始文件为CSV的文本记录,通过空间化处理生产出Shape格式的空间数据。数据集包括CSV格式和Shape格式两数数据格式。

国家地球系统科学数据中心 收录

MOOCs Dataset

该数据集包含了大规模开放在线课程(MOOCs)的相关数据,包括课程信息、用户行为、学习进度等。数据主要用于研究在线教育的行为模式和学习效果。

www.kaggle.com 收录

RAVDESS

情感语音和歌曲 (RAVDESS) 的Ryerson视听数据库包含7,356个文件 (总大小: 24.8 GB)。该数据库包含24位专业演员 (12位女性,12位男性),以中性的北美口音发声两个词汇匹配的陈述。言语包括平静、快乐、悲伤、愤怒、恐惧、惊讶和厌恶的表情,歌曲则包含平静、快乐、悲伤、愤怒和恐惧的情绪。每个表达都是在两个情绪强度水平 (正常,强烈) 下产生的,另外还有一个中性表达。所有条件都有三种模态格式: 纯音频 (16位,48kHz .wav),音频-视频 (720p H.264,AAC 48kHz,.mp4) 和仅视频 (无声音)。注意,Actor_18没有歌曲文件。

OpenDataLab 收录

中国高分辨率高质量PM2.5数据集(2000-2023)

ChinaHighPM2.5数据集是中国高分辨率高质量近地表空气污染物数据集(ChinaHighAirPollutants, CHAP)中PM2.5数据集。该数据集利用人工智能技术,使用模式资料填补了卫星MODIS MAIAC AOD产品的空间缺失值,结合地基观测、大气再分析和排放清单等大数据生产得到2000年至今全国无缝隙地面PM2.5数据。数据十折交叉验证决定系数R2为0.92,均方根误差RMSE为10.76 µg/m3。主要范围为整个中国地区,空间分辨率为1 km,时间分辨率为日、月、年,单位为µg/m3。注意:该数据集持续更新,如需要更多数据,请发邮件联系作者(weijing_rs@163.com; weijing@umd.edu)。 数据文件中包含NC转GeoTiff的四种代码(Python、Matlab、IDL和R语言)nc2geotiff codes。

国家青藏高原科学数据中心 收录