CIRDataset
收藏arXiv2022-06-30 更新2024-06-21 收录
下载链接:
https://github.com/nadeemlab/CIR
下载链接
链接失效反馈官方服务:
资源简介:
CIRDataset是由纪念斯隆-凯特琳癌症中心创建的大型临床可解释放射学数据集,专注于肺结节的恶性预测。该数据集包含956条来自两个公共数据集(LIDC-IDRI和LUNGx)的肺结节分段和恶性预测相关的标注数据。数据集的创建过程涉及自动计算和专家质量保证/质量控制,确保数据的准确性和可靠性。CIRDataset的应用领域主要集中在通过肺结节的放射学特征进行恶性预测,旨在提高肺癌筛查的准确性和效率。
CIRDataset is a large-scale clinical interpretable radiology dataset developed by Memorial Sloan Kettering Cancer Center, focusing on malignant prediction of pulmonary nodules. This dataset contains 956 annotated records related to pulmonary nodule segmentation and malignant prediction, derived from two public datasets (LIDC-IDRI and LUNGx). The development process of CIRDataset involves automated computation and expert quality assurance/quality control (QA/QC) to guarantee the accuracy and reliability of the data. The primary application scope of CIRDataset is centered on malignant prediction based on radiological features of pulmonary nodules, aiming to enhance the accuracy and efficiency of lung cancer screening.
提供机构:
纪念斯隆-凯特琳癌症中心
创建时间:
2022-06-30
搜集汇总
数据集介绍

构建方式
CIRDataset的构建基于两个公开数据集LIDC-IDRI和LUNGx,通过专家QA/QC验证的956个肺结节上的spiculation/lobulation注释。首先,结节分割掩码被重新调整为各向同性体素大小以保留细节,然后从重新调整的分割掩码中提取等值面以构建3D网格模型。接着,应用球面参数化提取结节的面积畸变图,并在网格表面检测并分类spiculation和lobulation。最后,将面积畸变图和尖峰分类图体素化,以便于深度学习模型训练。
特点
CIRDataset的显著特点在于其高质量的肺结节分割掩码和spiculation/lobulation注释,这些注释通过自动计算和专家QA/QC验证确保了数据的准确性和可靠性。此外,该数据集提供了全面的注释,包括结节基础和尖峰的分类,为研究肺结节恶性预测提供了丰富的临床可解释特征。
使用方法
CIRDataset可用于开发和验证基于深度学习的肺结节恶性预测模型。研究者可以使用该数据集训练多类Voxel2Mesh扩展模型,该模型能够同时进行结节分割、尖峰分类和恶性预测。此外,数据集还提供了预处理数据和完整的注释生成管道,便于研究者在不同阶段进行数据处理和模型训练。
背景与挑战
背景概述
CIRDataset,一个大规模的临床可解释性肺结节放射组学与恶性预测数据集,由Wookjin Choi、Navdeep Dahiya和Saad Nadeem等研究人员于Thomas Jefferson University Hospital、Georgia Institute of Technology和Memorial Sloan Kettering Cancer Center合作创建。该数据集的核心研究问题聚焦于肺结节的放射学特征,特别是尖刺(spiculation)和分叶(lobulation),这些特征在肺癌恶性预测中具有重要临床意义。CIRDataset的创建填补了现有公共数据集在探讨这些临床报告特征重要性方面的空白,为当前最先进的恶性预测算法提供了宝贵的资源。通过整合LIDC-IDRI和LUNGx两个公开数据集的956个经过质量保证和质量控制的尖刺和分叶注释,CIRDataset不仅推动了肺结节恶性预测的研究,还为临床可操作性见解的提供奠定了基础。
当前挑战
CIRDataset在构建过程中面临多项挑战。首先,手动注释肺结节的尖刺和分叶特征是一项繁琐的任务,这导致了现有公共数据集的缺失。其次,数据集的构建需要高精度的肺结节分割掩码和尖刺/分叶注释,这要求在3D几何和2D切片评估之间进行精确的转换。此外,现有的恶性预测方法在解释临床报告特征方面存在超参数敏感性和可变性问题,这限制了其临床应用的可靠性。CIRDataset通过引入多类Voxel2Mesh扩展模型,尝试解决这些挑战,但如何在保持高精度分割的同时,确保模型对临床特征的稳健解释,仍是未来研究的重要方向。
常用场景
经典使用场景
CIRDataset 主要用于肺结节恶性预测的深度学习模型训练。通过提供高质量的肺结节分割掩码和尖刺/叶状结构注释,该数据集支持端到端的深度学习模型,能够进行肺结节分割、尖刺分类以及恶性预测。这一经典使用场景不仅提升了模型的准确性,还增强了其临床可解释性,为放射科医生提供了更为精确的辅助诊断工具。
衍生相关工作
CIRDataset 的发布催生了一系列相关研究工作。例如,基于该数据集的端到端深度学习模型不仅在肺结节分割和恶性预测方面取得了显著进展,还启发了其他研究者在乳腺结节和乳腺癌复发预测中的应用。此外,CIRDataset 还促进了多类 Voxel2Mesh 扩展模型的研究,该模型在保留尖刺特征的同时,显著提升了分割和分类的精度,为医学图像分析领域带来了新的研究方向。
数据集最近研究
最新研究方向
在肺癌诊断领域,CIRDataset的最新研究方向聚焦于通过深度学习技术提升肺结节恶性预测的临床解释性。该数据集包含了956个经过放射科医生质量控制和验证的肺结节分叶/棘突特征标注,为当前最先进的恶性预测算法提供了宝贵的资源。研究者们通过多类别的Voxel2Mesh扩展模型,实现了肺结节的精确分割、棘突分类以及恶性预测,从而克服了传统方法在临床可解释性方面的不足。这一研究不仅推动了肺结节恶性预测算法的进步,还为临床决策提供了更为可靠的依据,具有重要的临床应用价值。
相关研究论文
- 1CIRDataset: A large-scale Dataset for Clinically-Interpretable lung nodule Radiomics and malignancy prediction纪念斯隆-凯特琳癌症中心 · 2022年
以上内容由遇见数据集搜集并总结生成



