Deepfakes医学图像篡改检测数据集,可用于真假肿瘤识别
收藏帕依提提2024-03-04 收录
下载链接:
https://www.payititi.com/opendatasets/show-26025.html
下载链接
链接失效反馈官方服务:
资源简介:
Data Set Information: 攻击者能够使用深度学习拦截和添加/删除医学图像中具有高度真实感的医学证据。在这个数据集中,我们展示了医学上的假药:人类肺部的3D CT扫描,其中一些已经被真正的癌症切除并注射了假药。该数据集的目的是区分真假癌症,并确定医学扫描被篡改的位置。三位专家放射科医生对该数据集进行了评估,但无法可靠地区分真假癌症,这意味着假癌症是真实的,检测任务非常具有挑战性。有关更多信息,请参阅我们的论文“CT-GAN”。 数据集包括两组(80次扫描和20次扫描)。前80次扫描用于对放射科医生的盲法试验(他们没有被告知自己被篡改),而20次扫描用于对放射科医生的公开试验(他们被告知真相并被要求确认身份)。 随扫描一起提供的是一张有基本真相的表格。对于每次扫描,癌症的位置(x、y和z[切片]及其分类)。地点可分为: 真正良性(TB):实际上没有癌症的地方 真正的恶意(TM):具有真正癌症的位置 假良性(FB):一个位置有真正的癌症,但它被删除。 假恶意(FM):一个没有癌症的位置,但在那里注射了假癌症。 Access to the dataset is via this link: [Web link] Attribute Information: Each scan is in the medical dicom format, but it can be loaded as a 3D matrix with Python by using the tools provided in our code repository: [Web link] A scan is basically a series of 512x512 images. The series is usually about 100-300 slices long (the z axis). Cancers can occupy multiple slices along the z-axis. The value at each pixel is the Hounsfield unit (radiodensity) at that location. Relevant Papers: [Web link] Mirsky, Yisroel, et al. 'CT-GAN: Malicious tampering of 3D medical imagery using deep learning.' 28th {USENIX} Security Symposium ({USENIX} Security 19). 2019. [Web link],11&hl=en Citation Request: If you use this data, please cite: Mirsky, Yisroel, et al. 'CT-GAN: Malicious tampering of 3D medical imagery using deep learning.' 28th {USENIX} Security Symposium ({USENIX} Security 19). 2019. The original medical imagery is from: Armato III, Samuel G., McLennan, Geoffrey, Bidaut, Luc, McNitt-Gray, Michael F., Meyer, Charles R., Reeves, Anthony P., a€| Clarke, Laurence P. (2015). Data From LIDC-IDRI. The Cancer Imaging Archive. [Web link] Published under the Creative Commons Attribution 3.0 Unported License ([Web link])
数据集信息:攻击者可借助深度学习技术,生成高度逼真的医学证据,并对医学图像中的相关证据进行拦截、添加或删除操作。本数据集展示了针对人类肺部的3D计算机断层扫描(CT)图像构建的医学伪造病灶:其中部分扫描图像的真实癌症病灶已被移除,同时注入了伪造的癌症病灶。本数据集旨在实现真假癌症病灶的区分,并定位医学扫描图像的篡改区域。三名资深放射科医师对本数据集进行评估后,仍无法可靠区分真假癌症病灶,这表明伪造病灶的逼真度极高,该检测任务极具挑战性。如需了解更多细节,请参阅我们的《CT-GAN》论文。
本数据集包含两组扫描样本(80次扫描与20次扫描):前80次扫描用于放射科医师的盲法测试(受试者未被告知扫描存在篡改),而20次扫描用于公开测试试验(受试者已被告知实情,并被要求确认病灶性质)。
与扫描文件一同提供的还有一份标注了真实标注(ground truth)信息的表格。针对每一次扫描,表格均标注了癌症病灶的位置(x、y、z轴[切片序号]坐标)及其分类属性。病灶位置可分为以下四类:
1. 真正良性(TB, Truly Benign):实际不存在癌症的区域
2. 真正恶性(TM, Truly Malignant):存在真实癌症病灶的区域
3. 假良性(FB, False Benign):原本存在真实癌症,但已被移除的区域
4. 假恶性(FM, False Malignant):原本不存在癌症,但被注入伪造癌症病灶的区域
本数据集的获取链接为:[Web链接]
属性信息:每份扫描文件均采用DICOM(医学数字成像与通信)格式存储,可通过我们代码仓库中提供的工具,使用Python将其加载为三维矩阵:[Web链接]。单次扫描本质上是一系列512×512像素的二维图像,通常包含100~300个切片(对应z轴方向)。癌症病灶可沿z轴方向占据多个切片。每个像素的数值代表对应位置的亨氏单位(放射密度值,Hounsfield Unit, HU)。
相关论文:Mirsky Yisroel等人发表于第28届USENIX安全研讨会(USENIX Security 19)的论文《CT-GAN:利用深度学习对三维医学图像进行恶意篡改》,2019年。[Web链接]
引用要求:若使用本数据集,请引用以下文献:Mirsky, Yisroel, et al. 'CT-GAN: Malicious tampering of 3D medical imagery using deep learning.' 28th {USENIX} Security Symposium ({USENIX} Security 19). 2019.
本数据集的原始医学图像来源于:Armato III Samuel G.、McLennan Geoffrey、Bidaut Luc、McNitt-Gray Michael F.、Meyer Charles R.、Reeves Anthony P.以及Clarke Laurence P.于2015年发布的《LIDC-IDRI数据集》,收录于癌症影像档案库(The Cancer Imaging Archive)。[Web链接]
本数据集采用知识共享署名3.0未移植许可协议(Creative Commons Attribution 3.0 Unported License)进行发布。[Web链接]
提供机构:
帕依提提
搜集汇总
数据集介绍

背景与挑战
背景概述
Deepfakes医学图像篡改检测数据集是一个用于识别真假肿瘤的3D CT扫描数据集,包含被篡改的医学图像和基本真相标注,旨在挑战放射科医生和算法在检测篡改方面的能力。数据集分为盲法试验和公开试验两组,提供了详细的癌症位置和分类信息。
以上内容由遇见数据集搜集并总结生成



