Duke Lung Cancer Screening Dataset 2024 (DLCS 2024)

github2024-09-30 更新2024-10-05 收录

下载链接：

https://github.com/fitushar/AI-in-Lung-Health-Benchmarking-Detection-and-Diagnostic-Models-Across-Multiple-CT-Scan-Datasets

下载链接

链接失效反馈

官方服务：

资源简介：

Duke Lung Cancer Screening Dataset 2024 (DLCS 2024) 是一个用于肺癌风险分类研究的数据集，随着低剂量胸部CT筛查项目的普及，该数据集变得越来越重要。

Duke Lung Cancer Screening Dataset 2024 (DLCS 2024) is a dataset intended for research on lung cancer risk classification. With the increasing adoption of low-dose chest CT (LDCT) screening programs, this dataset has grown increasingly significant.

创建时间：

2024-09-28

原始信息汇总

数据集概述

Duke Lung Cancer Screening Dataset 2024 (DLCS 2024)

背景

肺部癌症风险分类是一个日益重要的研究领域，因为低剂量胸部CT筛查项目已成为高风险患者的标准护理。目前，用于肺结节分类算法训练和测试的大型、注释公开数据库有限。

方法

本研究考虑了2015年1月1日至2021年6月30日在杜克大学健康系统进行的筛查胸部CT扫描。通过使用在LUNA16数据集上训练的公开可用深度学习结节检测算法进行半自动结节注释，识别初始候选结节，然后根据放射学文本报告中的结节位置或由医学生和专科培训的心胸放射科医生手动注释接受。

结果

该数据集包含1613个CT体积，带有2487个注释结节，从总共2061名患者的数据集中选出，剩余数据保留用于未来测试。放射科医生的现场检查确认半自动注释的准确率超过90%。

结论

Duke Lung Cancer Screening Dataset 2024是第一个反映当前CT技术使用情况的大型CT筛查数据集。这代表了肺部癌症风险分类研究的有用资源，其描述的高效注释方法可用于未来生成类似数据库。

NLST

背景

在国家肺部筛查试验（NLST）中，我们利用了Mikhael等人（2023年）提供的公开访问注释。我们将超过9000个2D切片级边界框注释从900多名肺癌患者转换为3D表示，结果超过1100个结节注释。

方法

首先在DICOM图像中验证2D注释，然后从DICOM头文件中提取seriesinstanceuid、slice_location和slice_number。随后，将图像坐标位置转换为世界坐标。在相应的NIFTI图像中验证这些注释后，将跨多个切片的相同病变的连续重叠2D注释连接成单个3D注释。

结果

完整的3D注释生成代码和可视化脚本将很快发布。可视化预览可在Jupyter Notebook中查看。

LUNA16

背景

LUNA16是LIDC-IDRI数据集的改进版本，用于外部验证，采用标准的10折交叉验证程序进行肺结节检测。对于使用LUNA16的癌症诊断分类，我们遵循了Pai等人（2024年）的标记方案，该方案将至少有一位放射科医生指示为恶性的结节标记，结果为677个标记结节。

结论

LUNA16数据集用于肺结节检测和癌症诊断分类，提供了标准化的验证方法。

搜集汇总

数据集介绍

构建方式

Duke Lung Cancer Screening Dataset 2024 (DLCS 2024) 的构建基于Duke University Health System在2015年1月至2021年6月期间进行的筛查胸部CT扫描。数据集的标注过程采用了半自动化的方法，首先利用基于LUNA16数据集训练的深度学习算法进行初步候选点的识别，随后根据放射学报告中的结节位置或由医学学生和专科放射科医生手动标注。最终，数据集包含1613个CT体积，其中2487个结节被标注，准确率超过90%。

特点

DLCS 2024 数据集的主要特点在于其大规模和高质量的标注，涵盖了超过2000名患者的CT扫描数据。此外，数据集的构建方法结合了自动化和人工校验，确保了标注的准确性和可靠性。该数据集不仅适用于肺结节检测任务，还可用于癌症分类任务，为AI模型在肺健康领域的研究和应用提供了坚实的基础。

使用方法

使用DLCS 2024数据集时，用户可以下载包含CT扫描和标注信息的完整数据集。数据预处理步骤包括将CT体积重采样至标准分辨率，并进行强度值的裁剪和归一化。模型训练和验证可以通过MONAI框架进行，使用3D RetinaNet模型进行肺结节检测，或使用多种预训练模型进行癌症分类。详细的训练和评估流程可在提供的配置文件和脚本中找到，确保研究的可重复性和高效性。

背景与挑战

背景概述

Duke Lung Cancer Screening Dataset 2024 (DLCS 2024) 是由Duke University Health System在2015年至2021年间收集的低剂量胸部CT扫描数据集，旨在支持肺癌早期检测和分类研究。该数据集包含超过2,000个CT扫描图像，涉及1,613名患者，并标注了超过3,000个肺结节。主要研究人员包括Fakrul Islam Tushar、Avivah Wang等，他们通过半自动化的方法进行结节标注，确保了数据的高准确性。DLCS 2024的发布填补了大规模、高质量肺癌筛查数据集的空白，对推动人工智能在肺癌诊断中的应用具有重要意义。

当前挑战

DLCS 2024数据集在构建过程中面临多项挑战。首先，肺癌筛查领域的数据集稀缺，高质量的标注数据尤为难得，这限制了AI模型的训练和验证。其次，数据标注过程复杂，需要结合深度学习算法和专业放射科医生的判断，确保标注的准确性和一致性。此外，数据集的多样性和代表性也是一个重要挑战，确保模型在不同患者群体和不同设备上的泛化能力。最后，数据集的隐私和安全问题也需严格管理，以保护患者信息不被滥用。

常用场景

经典使用场景

Duke Lung Cancer Screening Dataset 2024 (DLCS 2024) 主要用于肺结节检测和癌症分类任务。该数据集包含超过2,000个CT扫描图像，涵盖1,613名患者，并附有超过3,000个注释。通过使用深度学习模型，如DLCSD-mD和LUNA16-mD，研究人员能够在内部和外部数据集上进行验证，评估模型在不同数据集上的泛化能力。

解决学术问题

DLCS 2024 数据集解决了肺部CT扫描数据集稀缺的问题，为研究人员提供了一个大规模、高质量的注释数据集。这有助于推动肺结节检测和癌症分类模型的研究，提高模型的准确性和可靠性。通过在多个数据集上的验证，该数据集还促进了模型在不同临床环境中的适应性和鲁棒性研究。

衍生相关工作

基于DLCS 2024 数据集，研究人员开发了多种肺结节检测和癌症分类模型，如DLCSD-mD和LUNA16-mD。这些模型不仅在内部数据集上表现优异，还在外部数据集如LUNA16和NLST上进行了验证。此外，该数据集还激发了关于模型泛化能力和数据集多样性的研究，推动了医学AI领域的进一步发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集