five

shubhxho/brain-mri-redacted

收藏
Hugging Face2026-04-25 更新2026-04-26 收录
下载链接:
https://hf-mirror.com/datasets/shubhxho/brain-mri-redacted
下载链接
链接失效反馈
官方服务:
资源简介:
brain-mri-redacted是一个经过去标识化处理的医学影像数据集,主要包含脑部MRI扫描数据。数据集包含19个图像系列,使用GE MEDICAL SYSTEMS 3T扫描仪采集,已通过HIPAA Safe Harbor标准进行去标识化处理,移除了26个标签、清空了22个标签、重新哈希了5个UIDs并调整了6个日期。数据集包含交互式HTML仪表板、每系列的元数据和质量指标、HIPAA合规性报告、DICOM标签转储、表格元数据导出以及各种可视化内容(多平面切片蒙太奇、强度分布图等)。每个系列根据信噪比估计、切片强度均匀性、组织覆盖率、动态范围和信息熵进行A-F等级的质量评估。数据集仅供研究使用,所有患者标识符均已按照HIPAA Safe Harbor标准移除。

brain-mri-redacted is a de-identified medical imaging dataset containing brain MRI scans. It includes 19 image series acquired on a GE MEDICAL SYSTEMS 3T scanner, processed using HIPAA Safe Harbor standards with 26 tags removed, 22 tags blanked, 5 UIDs rehashed, and 6 dates shifted. The dataset contains an interactive HTML dashboard, per-series metadata and quality metrics, HIPAA compliance reports, DICOM tag dumps, tabular metadata exports, and various visualizations (multi-plane slice montages, intensity distribution plots, etc.). Each series is graded A-F based on SNR estimates, slice intensity uniformity, tissue coverage percentage, dynamic range, and entropy. The dataset is for research purposes only, with all patient identifiers removed per HIPAA Safe Harbor.
提供机构:
shubhxho
搜集汇总
数据集介绍
main_image_url
构建方式
brain-mri-redacted数据集源自GE MEDICAL SYSTEMS 3T扫描仪采集的磁共振成像研究数据,经由micom工具进行严格的去标识化处理。构建过程遵循HIPAA安全港法规,通过移除26个敏感标签(如地址、电话、临床试验ID)、清空22个标签(如患者/医生姓名、机构信息)、重哈希5个UID(如研究/序列/SOP实例UID)以及偏移6个日期(如出生日期、检查日期),最终生成19个序列的影像数据,HIPAA合规评分达100/100,确保无受保护健康信息残留。
特点
该数据集的核心特点在于其高标准的数据隐私保护与丰富的元数据资源。去标识化过程采用单次通过验证,确保每个文件内存清理无误,并附带完整的合规报告(hipaa_compliance.json)作为审计依据。除影像外,数据集还提供交互式HTML仪表盘、序列质量指标、DICOM标签转储文件以及多平面切片蒙太奇视图,支持从信噪比、强度均匀性、组织覆盖范围、动态范围和熵等多个维度对每个序列进行A-F等级的质量评估。
使用方法
研究人员可通过Hugging Face Hub的hf_hub_download函数直接下载数据集资源,例如获取交互式报告(report.html)或序列统计文件(series_stats.json)。数据适用于图像分割与分类任务,利用dicom_metadata.csv等表格化元数据可快速筛选所需序列,结合质量分析结果剔除低质量影像。需注意,该数据集仅限科研使用,严禁任何重识别受试者的尝试,以确保符合伦理规范。
背景与挑战
背景概述
在医学影像分析领域,磁共振成像(MRI)数据的隐私保护与科研可用性之间的平衡始终是一项核心挑战。brain-mri-redacted数据集由国际研究团队开发,旨在为脑部MRI研究提供符合HIPAA安全港标准的去标识化数据资源。该数据集源自GE MEDICAL SYSTEMS 3T扫描仪采集的19个影像序列,共计超过13544个视觉化切片,覆盖了从原始DICOM文件到质量评估报告的完整信息链条。通过系统性移除26个标签、空白化22个标签、重哈希5个UID及偏移6个日期,研究团队实现了100分的HIPAA合规评分,为跨机构医学影像共享树立了数据脱敏的新标杆。该数据集的发布不仅推动了隐私保护型医学数据集的标准化进程,更为后续基于深度学习的脑部疾病诊断、组织分割等研究提供了可靠的基准数据源。
当前挑战
该数据集所解决的领域核心挑战在于:如何在不牺牲临床科研价值的前提下,彻底消除医学影像中受保护的健康信息(PHI),从而突破数据共享的法律与伦理壁垒。传统去标识化方法常因标签遗漏或影像内嵌文本导致隐私泄露风险,而本数据集通过HIPAA安全港原则的严格实施,实现了零PHI残留,但这一过程面临诸多技术难点:包括DICOM头文件中隐性标识字段的自动识别、扫描仪特定水印的清洗、以及多序列数据中时间戳的同步偏移。此外,数据构建过程中还需应对不同序列的信噪比(SNR)波动、切片强度不均匀性等质量把控问题,通过A-F级动态评级体系确保每个序列的科研可用性,最终产出的数据集成功验证了自动化脱敏与质量保障框架的可行性,为类似医学图像数据集的合规构建提供了可复现的工程范式。
常用场景
经典使用场景
在医学影像分析领域,脑部磁共振成像(MRI)数据的隐私保护与标准化处理是研究的基础前提。brain-mri-redacted数据集经HIPAA安全港标准严格去标识化处理,剔除了26个标签、模糊了22个字段并迁移了日期信息,为研究人员提供了一个合规、可复用的脑部MRI数据集。该数据集最经典的使用场景是作为医学影像分割任务的训练与评估基准,研究人员可基于其提供的19个序列图像,开发针对脑组织、肿瘤或血管结构的自动分割模型。此外,其附带的质量评分体系(A-F等级)支持研究者按信噪比、组织覆盖率等指标筛选高质量子集,从而提升模型训练的可靠性与可比性。
实际应用
在实际临床与产业场景中,该数据集具有多重应用价值。它可被用于训练医疗AI辅助诊断系统,例如在放射科工作流中自动识别脑部病变、分割异常组织区域,或为手术导航提供三维可视化支持。其HIPAA合规属性使得研究机构能无缝对接真实医院数据,开发并验证去标识化工具(如micom框架),从而降低跨机构合作中的数据壁垒。同时,数据集中包含的增强视图(MIP/MinIP)和组织分割预览,可直接用于临床教育场景,帮助医学生理解MRI解剖结构和病理变化的空间关系。
衍生相关工作
围绕该数据集的特性,学术界衍生出一系列相关研究工作。基于其去标识化流程,有研究进一步优化了DICOM元数据的匿名化算法,提出了自适应日期间移策略和UID重哈希协议,推动了HIPAA合规的自动化工具发展。针对其质量评分体系,衍生出多模态MRI质量评估框架,将SNR估计与熵分析相结合以预测分割模型的性能下限。此外,该数据集常被用于验证联邦学习框架在分布式医疗场景中的隐私保护效果,成为跨中心模型训练的安全标尺。这些工作共同构建了一个从数据清洗到模型部署的完整技术链条。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作