MIDI Dataset
收藏arXiv2025-07-31 更新2025-08-07 收录
下载链接:
https://github.com/MIC-DKFZ/miccai2024_midi-b-submission
下载链接
链接失效反馈官方服务:
资源简介:
MIDI数据集是一个由美国国家癌症研究所、医学图像计算和计算机辅助干预学会、Sage Bionetworks合作创建的医学图像去标识化基准挑战(MIDI-B)数据集。该数据集包含了从癌症影像档案(TCIA)中获取的多个模态的临床DICOM图像,并插入了合成的PHI/PII信息。MIDI数据集用于训练和验证去标识化算法,帮助研究人员和医疗专业人员评估他们开发的去标识化算法。数据集规模庞大,包含了多种医学影像模态,如CR、MR、CT、PET、DX、SR、MG和US,用于测试去标识化算法的性能和准确性。
The MIDI dataset, officially named the Medical Image De-identification Benchmark (MIDI-B) dataset, was co-developed through a collaboration among the U.S. National Cancer Institute, the Medical Image Computing and Computer Assisted Intervention Society, and Sage Bionetworks. It contains clinical DICOM images of multiple modalities obtained from The Cancer Imaging Archive (TCIA), with synthetic PHI/PII information inserted into the images. This dataset is dedicated to training and validating de-identification algorithms, assisting researchers and medical professionals in assessing the de-identification algorithms they have developed. Boasting a large volume of data, the dataset covers a diverse set of medical imaging modalities including CR, MR, CT, PET, DX, SR, MG, and US, and is employed to test the performance and accuracy of de-identification algorithms.
提供机构:
美国国家癌症研究所、医学图像计算和计算机辅助干预学会、Sage Bionetworks
创建时间:
2025-07-31
搜集汇总
数据集介绍

构建方式
MIDI数据集作为医学图像去标识化基准挑战的核心资源,其构建过程体现了多模态临床数据的合成创新。研究团队从癌症影像档案库(TCIA)获取已去标识的真实DICOM图像作为基础,通过系统性注入合成的受保护健康信息(PHI)和个人身份信息(PII),构建了包含计算机放射成像(CR)、磁共振(MR)、计算机断层扫描(CT)等八种模态的异构数据集。数据生成采用分层设计策略,验证集(216名受试者,23,921个实例)与测试集(322名受试者,29,660个实例)严格隔离,并通过DICOM标签数据库和光学字符识别(OCR)技术实现合成标识符的精准嵌入与验证。
特点
该数据集的核心价值在于其标准化评估框架与临床真实性并重的特性。首先,数据覆盖多中心采集的放射影像,模拟了真实医疗场景中厂商私有标签、自由文本字段和像素内嵌PHI等复杂情形。其次,配套开发的基准测试系统包含10类标准化操作定义(如日期偏移、像素隐藏等),通过系列级和实例级双重评估机制,可量化分析去标识工具在HIPAA安全港规则、DICOM属性保密配置文件等合规性指标上的表现。尤为突出的是,数据集通过预定义的答案密钥实现自动化评分,支持对元数据处理(97.91%-99.93%准确率)和像素级OCR去标识(15个关键标记)的细粒度性能评估。
使用方法
数据集采用三阶段渐进式应用范式:训练阶段鼓励开发者利用自有数据优化算法;验证阶段开放含216例合成标识的DICOM图像供参数调优;测试阶段通过322例独立数据实施双盲评估。使用流程强调技术合规性,参与者需提交患者ID映射文件和去标识后图像,由基于Synapse平台的验证脚本自动比对答案密钥,生成包含操作准确性、类别错误统计和像素差异报告的三维评估结果。对于研究应用,建议结合规则引擎与AI模型(如RoBERTa、Faster R-CNN)处理结构化标签与自由文本,并注意TCIA最佳实践指南中关于私有标签保留与时间序列一致性的特殊要求。
背景与挑战
背景概述
MIDI数据集(Medical Image De-Identification Benchmark Challenge Dataset)是由美国国家癌症研究所(NCI)联合医学图像计算与计算机辅助干预学会(MICCAI)及Sage Bionetworks于2024年共同创建的医学图像去标识化基准测试数据集。该数据集旨在为DICOM格式医学图像的隐私保护技术提供标准化评估平台,其核心研究问题是解决医疗图像共享中受保护健康信息(PHI)和个人身份信息(PII)的自动化去标识化难题。数据集基于真实去标识化影像注入合成PHI/PII构建,覆盖CT、MR、PET等多模态影像,遵循HIPAA安全港条例和DICOM属性保密规范,对推动医学影像AI研究的合规数据共享具有里程碑意义。
当前挑战
MIDI数据集面临双重挑战:在领域问题层面,需精准平衡PHI/PII消除与保留研究关键元数据的矛盾,特别是处理DICOM头文件中自由文本字段和厂商私有标签的模糊定义问题;在构建层面,合成PHI/PII的逼真性验证、多中心多模态数据的异质性整合,以及去标识化黄金标准缺失构成主要技术瓶颈。具体表现为:1)自由文本中PHI/PII的上下文相关识别;2)像素矩阵内烧录文本的光学字符识别(OCR)误差;3)跨厂商DICOM私有标签处理的标准化缺失;4)评估指标中系列级与实例级去标识化效果的不一致性。
常用场景
经典使用场景
MIDI数据集作为医学图像去标识化的基准测试工具,广泛应用于评估和比较不同去标识化算法的性能。该数据集通过合成PHI/PII信息嵌入真实去标识化的医学影像中,为研究者提供了一个标准化平台,用于验证算法在去除敏感信息的同时保留研究关键元数据的能力。其多中心、多模态的特性使其成为医学影像隐私保护领域的黄金标准。
解决学术问题
MIDI数据集解决了医学影像共享中的关键隐私保护问题,为研究者提供了评估去标识化算法的统一基准。通过标准化HIPAA安全港法规和DICOM属性保密配置文件,该数据集帮助研究者克服了传统方法中因私有数据集不可得而导致的算法开发障碍。其公开可用的特性显著降低了医学影像隐私保护研究的门槛,推动了该领域的学术进步。
衍生相关工作
基于MIDI数据集,研究者们开发了多种创新性工作,包括结合大型语言模型(LLMs)的混合去标识化系统、基于深度学习的像素级文本识别方法,以及面向多语言环境的去标识化工具。这些衍生工作显著提升了医学影像去标识化的准确性和效率,其中部分成果已被整合到商业化的医学影像处理平台中,形成了从学术研究到临床应用的完整转化链条。
以上内容由遇见数据集搜集并总结生成



