Open-radiomics

Name: Open-radiomics
Creator: 病童医院（SickKids）诊断成像与图像引导治疗部，多伦多，安大略省，加拿大
Published: 2023-10-25 02:41:44
License: 暂无描述

arXiv2023-10-25 更新2024-06-21 收录

下载链接：

https://openradiomics.org

下载链接

链接失效反馈

官方服务：

资源简介：

Open-radiomics是由病童医院（SickKids）的研究团队创建的一个标准化数据集，旨在通过机器学习管道提高医学影像中放射组学的可重复性和可访问性。该数据集基于BraTS 2020开源磁共振成像（MRI）数据集，包含369名成人脑肿瘤患者的数据，分为76例低级别胶质瘤（LGG）和293例高级别胶质瘤（HGG）。数据集通过PyRadiomics库处理，形成了288个放射组学数据集，涵盖了4种MRI序列、3种binWidth、6种图像归一化方法和4种肿瘤子区域。数据集的应用领域主要集中在脑肿瘤类型的分类，旨在解决放射组学特征提取对结果可重复性的影响。

Open-radiomics is a standardized dataset developed by a research team at the Hospital for Sick Children (SickKids), aiming to improve the reproducibility and accessibility of radiomics in medical imaging via machine learning pipelines. This dataset is built upon the open-source BraTS 2020 magnetic resonance imaging (MRI) dataset, containing data from 369 adult brain tumor patients, including 76 cases of low-grade glioma (LGG) and 293 cases of high-grade glioma (HGG). Processed using the PyRadiomics library, the dataset yields 288 radiomics datasets covering 4 MRI sequences, 3 binWidth settings, 6 image normalization methods and 4 tumor sub-regions. The primary application of this dataset focuses on brain tumor type classification, aiming to address the impact of radiomics feature extraction on result reproducibility.

提供机构：

病童医院（SickKids）诊断成像与图像引导治疗部，多伦多，安大略省，加拿大

创建时间：

2022-07-30

搜集汇总

数据集介绍

构建方式

Open-radiomics数据集基于BraTS 2020公开多序列磁共振影像（MRI）数据集构建，涵盖369例成人脑肿瘤患者（76例低级别胶质瘤与293例高级别胶质瘤）。利用PyRadiomics库进行影像组学特征提取，通过组合4种MRI序列（T1、T1CE、T2、FLAIR）、3种binWidth参数（15、25、35）、6种图像归一化方法（无归一化、Gamma0.5、Gamma1.5、直方图均衡化、ZScore、MinMax）以及4种肿瘤子区域（全肿瘤、活跃肿瘤、水肿区、坏死与非增强肿瘤核心联合区），共生成288个结构化的影像组学表格数据集，总计约2.9 GB数据。每个数据集包含1710个特征（启用全特征提取），并附带对应的二分类标签（高级别与低级别胶质瘤）。

特点

该数据集的核心特点在于系统性地涵盖了影像组学流程中多个关键变异源，包括binWidth、图像归一化方法、MRI序列和肿瘤子区域，为研究这些因素对模型可重复性的影响提供了丰富素材。基于重复实验设计（100次训练-验证-测试划分），每个数据集均产生28800个测试结果，并计算受试者工作特征曲线下面积（AUC），从而量化随机性对性能的影响。数据集还公开了完整的技术协议，强调特征提取的标准化（如启用全特征、安装trimesh库）与数据管理规范（如唯一ROI标识符、命名规则），显著提升了研究的透明度和可复现性。

使用方法

用户可直接加载Open-radiomics提供的CSV格式表格数据集，每行对应一个ROI，包含影像组学特征与标签。建议遵循论文提出的技术协议：首先识别并控制变异源，使用PyRadiomics进行全特征提取；随后采用重复性分类流程，将数据按60%/20%/20%划分为训练、验证和测试集，并重复100次以评估模型稳定性；推荐使用随机森林作为基线分类器，并通过网格搜索优化超参数（如n_estimators、max_depth）。此外，需注意特征工程（如相关性过滤、近零方差过滤、MinMax缩放）应仅基于开发集学习，避免数据泄露。数据集命名规则（如Radiomics_ZScore_T1CE.csv）便于按需筛选特定配置进行分析。

背景与挑战

背景概述

在医学影像分析领域，影像组学作为机器学习的重要分支，通过从医学图像中提取大量手工定义的特征，为疾病的诊断、预后和治疗评估提供了强有力的工具。然而，影像组学面临两大核心挑战：可重复性与可及性。为应对这些问题，Khashayar Namdar、Matthias W. Wagner、Birgit B. Ertl-Wagner及Farzad Khalvati等研究人员于2023年提出了Open-radiomics数据集。该数据集基于BraTS 2020公开的脑肿瘤MRI数据，包含369例成年患者（76例低级别胶质瘤与293例高级别胶质瘤），通过PyRadiomics库提取了288组影像组学数据集，系统研究了binWidth、图像归一化方法、MRI序列和肿瘤子区域对分类性能的影响。该工作不仅提供了标准化的大规模影像组学表格数据，还提出了一个技术协议，旨在提升影像组学机器学习流水线的可重复性，对推动影像组学研究的规范化和临床转化具有重要意义。

当前挑战

Open-radiomics数据集所解决的领域问题在于影像组学流水线的可重复性危机：由于成像设备、协议、归一化方法及特征提取超参数（如binWidth）的差异，同一数据集可能产生截然不同的分类结果，甚至出现表面完美但无法复现的性能（如28种设置下达到AUC=1.0）。构建过程中面临的挑战包括：多模态MRI序列（T1、T1CE、T2、FLAIR）与肿瘤子区域（整体肿瘤、活性肿瘤、水肿区、坏死与非增强肿瘤核心联合区）的组合爆炸，导致288组数据集生成；特征提取失败问题（696次提取失败），其中小且非凸的子区域（如活性肿瘤）失败率高达1952次；以及重复100次实验（总计28,800次测试结果）带来的巨大计算开销。此外，确保所有依赖库（如trimesh）正确安装、2D与3D特征提取的一致性，以及诊断特征信息的透明公开，都是构建过程中必须克服的技术障碍。

常用场景

经典使用场景

Open-radiomics数据集在医学影像分析领域，尤其是脑肿瘤影像组学研究中，被广泛用于构建和验证基于机器学习的分型分类模型。该数据集基于BraTS 2020多模态MRI数据，通过PyRadiomics库提取了1,710个影像组学特征，涵盖了T1、T1CE、T2和FLAIR四种序列，以及全肿瘤、活性肿瘤、水肿区和坏死与非增强肿瘤核心四种肿瘤亚区。研究者通常利用该数据集进行低级别胶质瘤（LGG）与高级别胶质瘤（HGG）的二元分类任务，通过随机森林等分类器评估不同参数组合（如binWidth、图像归一化方法）对模型性能的影响。其标准化的特征提取协议和重复性实验设计，为影像组学分类研究提供了可靠的基准和可复现的范例。

实际应用

在实际临床应用中，Open-radiomics数据集为脑肿瘤的术前无创分级提供了高效工具。基于T1CE序列和坏死与非增强肿瘤核心亚区的组合，模型达到了平均测试AUC 0.956的优异性能，能够辅助放射科医生在手术或活检前准确区分LGG与HGG，从而优化治疗策略（如低级别肿瘤的保守随访与高级别肿瘤的积极干预）。该数据集还支持个性化医疗场景，例如通过影像组学特征预测BRAF基因突变状态，为儿童低级别胶质瘤的靶向治疗决策提供影像生物标志物。此外，其开放获取的表格化数据格式降低了计算门槛，使临床机构无需复杂图像处理即可快速部署分类模型，加速了影像组学从研究到临床的转化。

衍生相关工作

Open-radiomics数据集衍生了一系列重要的后续研究，主要集中在影像组学可重复性、特征选择与多中心验证等领域。基于其提出的技术协议，后续工作进一步探索了深度学习与影像组学的融合，例如将CNN提取的深度特征与手工影像组学特征结合，提升分类鲁棒性。该数据集还催生了针对肿瘤亚区特异性分析的研究，如单独评估活性肿瘤或水肿区的预测价值，以及跨序列（如FLAIR vs. T1CE）的对比分析。此外，其公开的288组表格数据成为评估不同特征筛选算法（如LASSO、递归特征消除）和分类器（如SVM、XGBoost）性能的基准测试床。在临床转化方面，该协议被借鉴用于其他癌症类型（如肺癌、前列腺癌）的影像组学研究，推动了标准化流水线的跨疾病应用。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集