DICOM with Synthetic Text Overlays for De-Identification Research

github2025-03-25 更新2025-04-03 收录

下载链接：

https://github.com/JohnSnowLabs/dicom-deid-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集旨在评估医学图像去识别方法。我们的方法受到论文《用于医学图像去识别评估的DICOM数据集》的启发，该论文探讨了DICOM图像中的合成叠加。我们使用了公开可用的Pseudo-PHI DICOM数据集作为起点。数据集生成过程包括图像提取、合成叠加生成、地面真实（GT）注释、文本烧录过程和新DICOM文件创建。数据集内容包括带有烧录文本叠加的单帧DICOM图像、应用文本前的原始图像以及包含生成文本及其坐标的地面真实注释文件。

This dataset is developed to evaluate medical image de-identification methods. Our approach is inspired by the paper titled *DICOM Dataset for Medical Image De-identification Evaluation*, which discusses synthetic overlays on DICOM images. We use the publicly available Pseudo-PHI DICOM dataset as our starting point. The dataset generation workflow includes image extraction, synthetic overlay generation, ground truth (GT) annotation, text burning-in procedure, and creation of new DICOM files. The dataset content consists of single-frame DICOM images with burned-in text overlays, original images prior to text application, and ground truth annotation files containing the generated text and their corresponding coordinates.

创建时间：

2025-03-17

原始信息汇总

DICOM Deidentification Evaluation & Dataset 概述

数据集目的

用于评估医学图像去标识化方法
支持医学图像去标识化和文本去除技术的研究

数据集来源

基于公开可用的Pseudo-PHI DICOM数据集创建
受论文"A DICOM dataset for evaluation of medical image de-identification"启发

数据集生成过程

图像提取：从原始DICOM文件中提取图像
合成覆盖层生成：
- 创建元数据衍生的文本覆盖层，模拟患者识别信息
- 生成两种类型的文本注释
- 文本覆盖层放置在图像的不同角落位置
真实标注(GT)生成：
- 保存生成的文本注释及其精确坐标
文本烧录过程：
- 将合成文本烧录到提取的图像中
新DICOM文件创建：
- 将修改后的图像保存为新的DICOM文件
- 将原始数据集中的多帧DICOM文件拆分为多个单帧DICOM文件

数据集内容

DICOM文件：包含烧录文本覆盖层的单帧DICOM图像
提取的图像：应用文本前的原始图像
GT标注文件：包含生成文本及其坐标的真实数据

文件结构

Presidio_Metrics.ipynb
Visual_NLP_Metrics.ipynb
creds.json (Visual NLP凭证)
dicom_image_pii_verify_engine.py (Presidio修复)
prepare_data.py (用于生成真实标注和从ZIP提取DICOM文件的脚本)
results/detected_phi (包含NER结果的JSON文件)
results/deid_result (来自Presidio和Visual NLP的最终混淆图像)

子集DICOM

精选14个高质量临床相关DICOM图像文件

环境配置

Google Colab:
- 标准A100 (40GB) GPU环境
- 用于Visual NLP管道和Presidio
Databricks:
- 16.0 ML (包含Apache Spark 3.5.2, GPU, Scala 2.12)
- 仅用于Visual NLP管道
- 需要Cuda 12.X和cudNN 9.X

性能指标

模型性能

模型	精确度	召回率	F1分数
ImageTextDetector - MemOpt (Scala) + ImageToTextV2 - Base (Scala)	0.871	0.800	0.834
ImageTextDetector - MemOpt (Scala) + ImageToTextV2 - Large (Scala)	0.892	0.822	0.856
ImageTextDetector - MemOpt (Scala) + ImageToTextV3 (Scala)	0.741	0.433	0.547
ImageToText (Python)	0.436	0.289	0.348
Presidio	0.07	0.128	0.091

GPU处理时间(平均每文件)

模型	Google Colab	Databricks Standalone	Databricks Cluster
ImageTextDetector - MemOpt (Scala) + ImageToTextV2 - Base (Scala)	3.63	4.66	2.76
ImageTextDetector - MemOpt (Scala) + ImageToTextV2 - Large (Scala)	4.06	5.39	3.2
ImageTextDetector - MemOpt (Scala) + ImageToTextV3 (Scala)	0.68	1.15	1.0
ImageToText (Python)	0.31	1.21	0.89
Presidio	0.54	None	None

CPU处理时间(平均每文件)

模型	Google Colab	Databricks Standalone	Databricks Cluster
ImageTextDetector - MemOpt (Scala) + ImageToTextV2 - Base (Scala)	11.87	6.11	2.94
ImageTextDetector - MemOpt (Scala) + ImageToTextV2 - Large (Scala)	22.85	19.48	3.59
ImageTextDetector - MemOpt (Scala) + ImageToTextV3 (Scala)	2.73	1.64	1.83
ImageToText (Python)	1.12	0.3	0.85
Presidio	0.54	None	None

示例结果

搜集汇总

数据集介绍

构建方式

在医疗影像脱敏研究领域，该数据集采用系统性构建方法，基于公开的Pseudo-PHI DICOM数据集进行深度加工。通过多阶段处理流程实现：首先从原始DICOM文件中提取基础影像，随后生成模拟患者身份信息的元数据文本叠加层，包含两种差异化注释类型并随机分布于图像四角。关键步骤包括精确标注文本坐标作为基准真值，将合成文本烧录至影像特定位置，最终重构为单帧DICOM格式。多帧DICOM文件经专业拆分处理，确保数据单元的独立性与完整性。

特点

该数据集的核心价值体现在三个维度：其临床真实性通过精选高质量影像保障，所有样本均经专业筛选避免数据偏差；技术层面提供完整的文本-坐标基准真值，支持像素级脱敏算法验证；数据多样性表现为包含不同模态的放射影像，如胸部X光、腹部CT等，且文本叠加采用差异化样式与位置分布。特别设计的单帧重构机制有效提升了数据处理效率，而原始影像与处理后数据的并行保存为方法对比研究创造了理想条件。

使用方法

研究者可通过Python脚本prepare_data.py快速部署数据处理流程，配套的Jupyter笔记本（Presidio_Metrics.ipynb等）提供标准化评估框架。数据集支持两种典型应用场景：基于基准真值坐标的文本检测算法验证，或利用烧录文本进行端到端脱敏系统测试。环境配置方面推荐使用Google Colab的A100 GPU或Databricks的ML 16.0环境，其中Visual NLP组件需CUDA 12.x与cuDNN 9.x支持。评估模块已集成精确率、召回率等核心指标，用户可通过修改creds.json接入自定义NLP服务进行扩展实验。

背景与挑战

背景概述

DICOM with Synthetic Text Overlays for De-Identification Research数据集诞生于医学影像数据隐私保护需求日益增长的时代背景下，由JohnSnowLabs研究团队基于Pseudo-PHI DICOM公开数据集构建而成。该数据集通过创新性地在DICOM医学影像中嵌入合成文本覆盖层，模拟真实场景中的患者身份信息，旨在为医学图像去标识化技术提供标准化评估基准。其构建过程融合了医学影像处理与自然语言处理技术，通过精确控制文本位置与内容生成，解决了传统去标识化研究中真实患者数据获取困难的伦理困境。该数据集的发布显著推动了医疗隐私保护领域的研究进程，为开发鲁棒性更强的去标识化算法提供了重要基础。

当前挑战

该数据集主要针对医学图像去标识化领域的两大核心挑战：一是如何有效识别并移除嵌入在像素数据中的敏感文本信息，这类信息往往与医学影像深度融合，传统OCR技术难以准确识别；二是处理多模态DICOM文件时面临的格式复杂性挑战，包括多帧影像拆分与元数据保留问题。在数据集构建过程中，研究者需克服合成文本与医学影像的逼真融合难题，确保生成的覆盖层既符合真实临床场景的文本特征，又能提供精确的坐标标注。此外，不同模态医学影像的文本分布规律差异，以及临床相关性与图像质量的平衡选择，均为数据集构建带来了显著挑战。

常用场景

经典使用场景

在医学影像数据隐私保护领域，该数据集通过合成文本叠加技术模拟真实DICOM文件中可能存在的患者标识信息，为研究者提供了标准化的测试平台。研究人员可利用该数据集评估不同去标识化算法的性能，特别是在处理嵌入在像素数据中的文本信息时，能够精确测量算法对敏感信息的识别和遮蔽能力。数据集包含原始图像、带合成文本的DICOM文件及真实坐标标注，这种多模态设计使得其在算法开发阶段具有高度实用价值。

实际应用

在临床数据共享与科研协作场景中，该数据集支持开发的去标识化技术可直接应用于医院PACS系统。通过对CT、XR等各类DICOM影像的自动化处理，能有效去除患者姓名、检查日期等敏感信息，同时保留诊断相关像素数据。特别值得注意的是，数据集包含的多帧拆分处理方案，为动态医学影像的隐私保护提供了可行性技术路径，满足HIPAA等医疗隐私法规的合规性要求。

衍生相关工作

基于该数据集的技术验证催生了多个创新性研究，包括JohnSnowLabs开发的Visual NLP混合架构，其结合内存优化的Scala文本检测器与大型语言模型，在GPU环境下实现单文件3.2秒的处理速度。相关成果已延伸至DICOM元数据清理、医学图像分割掩码去标识等衍生领域，形成了以Presidio框架为基础的医疗数据全生命周期保护解决方案体系。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集