five

Duke Lung Cancer Screening Dataset 2024 (DLCS 2024)|肺癌筛查数据集|风险分类数据集

收藏
github2024-09-30 更新2024-10-05 收录
肺癌筛查
风险分类
下载链接:
https://github.com/fitushar/AI-in-Lung-Health-Benchmarking-Detection-and-Diagnostic-Models-Across-Multiple-CT-Scan-Datasets
下载链接
链接失效反馈
资源简介:
Duke Lung Cancer Screening Dataset 2024 (DLCS 2024) 是一个用于肺癌风险分类研究的数据集,随着低剂量胸部CT筛查项目的普及,该数据集变得越来越重要。
创建时间:
2024-09-28
原始信息汇总

数据集概述

Duke Lung Cancer Screening Dataset 2024 (DLCS 2024)

背景

肺部癌症风险分类是一个日益重要的研究领域,因为低剂量胸部CT筛查项目已成为高风险患者的标准护理。目前,用于肺结节分类算法训练和测试的大型、注释公开数据库有限。

方法

本研究考虑了2015年1月1日至2021年6月30日在杜克大学健康系统进行的筛查胸部CT扫描。通过使用在LUNA16数据集上训练的公开可用深度学习结节检测算法进行半自动结节注释,识别初始候选结节,然后根据放射学文本报告中的结节位置或由医学生和专科培训的心胸放射科医生手动注释接受。

结果

该数据集包含1613个CT体积,带有2487个注释结节,从总共2061名患者的数据集中选出,剩余数据保留用于未来测试。放射科医生的现场检查确认半自动注释的准确率超过90%。

结论

Duke Lung Cancer Screening Dataset 2024是第一个反映当前CT技术使用情况的大型CT筛查数据集。这代表了肺部癌症风险分类研究的有用资源,其描述的高效注释方法可用于未来生成类似数据库。

NLST

背景

在国家肺部筛查试验(NLST)中,我们利用了Mikhael等人(2023年)提供的公开访问注释。我们将超过9000个2D切片级边界框注释从900多名肺癌患者转换为3D表示,结果超过1100个结节注释。

方法

首先在DICOM图像中验证2D注释,然后从DICOM头文件中提取seriesinstanceuidslice_locationslice_number。随后,将图像坐标位置转换为世界坐标。在相应的NIFTI图像中验证这些注释后,将跨多个切片的相同病变的连续重叠2D注释连接成单个3D注释。

结果

完整的3D注释生成代码和可视化脚本将很快发布。可视化预览可在Jupyter Notebook中查看。

LUNA16

背景

LUNA16是LIDC-IDRI数据集的改进版本,用于外部验证,采用标准的10折交叉验证程序进行肺结节检测。对于使用LUNA16的癌症诊断分类,我们遵循了Pai等人(2024年)的标记方案,该方案将至少有一位放射科医生指示为恶性的结节标记,结果为677个标记结节。

结论

LUNA16数据集用于肺结节检测和癌症诊断分类,提供了标准化的验证方法。

AI搜集汇总
数据集介绍
main_image_url
构建方式
Duke Lung Cancer Screening Dataset 2024 (DLCS 2024) 的构建基于Duke University Health System在2015年1月至2021年6月期间进行的筛查胸部CT扫描。数据集的标注过程采用了半自动化的方法,首先利用基于LUNA16数据集训练的深度学习算法进行初步候选点的识别,随后根据放射学报告中的结节位置或由医学学生和专科放射科医生手动标注。最终,数据集包含1613个CT体积,其中2487个结节被标注,准确率超过90%。
特点
DLCS 2024 数据集的主要特点在于其大规模和高质量的标注,涵盖了超过2000名患者的CT扫描数据。此外,数据集的构建方法结合了自动化和人工校验,确保了标注的准确性和可靠性。该数据集不仅适用于肺结节检测任务,还可用于癌症分类任务,为AI模型在肺健康领域的研究和应用提供了坚实的基础。
使用方法
使用DLCS 2024数据集时,用户可以下载包含CT扫描和标注信息的完整数据集。数据预处理步骤包括将CT体积重采样至标准分辨率,并进行强度值的裁剪和归一化。模型训练和验证可以通过MONAI框架进行,使用3D RetinaNet模型进行肺结节检测,或使用多种预训练模型进行癌症分类。详细的训练和评估流程可在提供的配置文件和脚本中找到,确保研究的可重复性和高效性。
背景与挑战
背景概述
Duke Lung Cancer Screening Dataset 2024 (DLCS 2024) 是由Duke University Health System在2015年至2021年间收集的低剂量胸部CT扫描数据集,旨在支持肺癌早期检测和分类研究。该数据集包含超过2,000个CT扫描图像,涉及1,613名患者,并标注了超过3,000个肺结节。主要研究人员包括Fakrul Islam Tushar、Avivah Wang等,他们通过半自动化的方法进行结节标注,确保了数据的高准确性。DLCS 2024的发布填补了大规模、高质量肺癌筛查数据集的空白,对推动人工智能在肺癌诊断中的应用具有重要意义。
当前挑战
DLCS 2024数据集在构建过程中面临多项挑战。首先,肺癌筛查领域的数据集稀缺,高质量的标注数据尤为难得,这限制了AI模型的训练和验证。其次,数据标注过程复杂,需要结合深度学习算法和专业放射科医生的判断,确保标注的准确性和一致性。此外,数据集的多样性和代表性也是一个重要挑战,确保模型在不同患者群体和不同设备上的泛化能力。最后,数据集的隐私和安全问题也需严格管理,以保护患者信息不被滥用。
常用场景
经典使用场景
Duke Lung Cancer Screening Dataset 2024 (DLCS 2024) 主要用于肺结节检测和癌症分类任务。该数据集包含超过2,000个CT扫描图像,涵盖1,613名患者,并附有超过3,000个注释。通过使用深度学习模型,如DLCSD-mD和LUNA16-mD,研究人员能够在内部和外部数据集上进行验证,评估模型在不同数据集上的泛化能力。
解决学术问题
DLCS 2024 数据集解决了肺部CT扫描数据集稀缺的问题,为研究人员提供了一个大规模、高质量的注释数据集。这有助于推动肺结节检测和癌症分类模型的研究,提高模型的准确性和可靠性。通过在多个数据集上的验证,该数据集还促进了模型在不同临床环境中的适应性和鲁棒性研究。
衍生相关工作
基于DLCS 2024 数据集,研究人员开发了多种肺结节检测和癌症分类模型,如DLCSD-mD和LUNA16-mD。这些模型不仅在内部数据集上表现优异,还在外部数据集如LUNA16和NLST上进行了验证。此外,该数据集还激发了关于模型泛化能力和数据集多样性的研究,推动了医学AI领域的进一步发展。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国气象数据

本数据集包含了中国2023年1月至11月的气象数据,包括日照时间、降雨量、温度、风速等关键数据。通过这些数据,可以深入了解气象现象对不同地区的影响,并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。

github 收录

COVID-19 Data Hub

COVID-19 Data Hub是一个全球性的COVID-19数据集,包含了来自多个国家和地区的疫情数据,涵盖了病例数、死亡数、康复数、测试数等信息。此外,数据集还包括了与疫情相关的经济、社会和政策数据。

covid19datahub.io 收录

Beijing Traffic

The Beijing Traffic Dataset collects traffic speeds at 5-minute granularity for 3126 roadway segments in Beijing between 2022/05/12 and 2022/07/25.

Papers with Code 收录

望诊影像数据集及诊断文本数据集

中医望诊数据集包含舌诊图片3000张、面诊图片2000张、目诊图片3000张,舌诊图片的内容部分为舌头(属口颌系统),面诊图片的内容部分包括了面和唇(属其他系统)、眼睛部分做了脱敏处理,目诊图片的内容部分为眼睛(属感觉系统)。该数据集提供舌诊图像的齿痕、裂纹、点刺、苔色、胖瘦的标注信息;以及面诊图像的唇色、唇形、面神的标注信息;目诊图像的特征属性包括颜色名称、颜色HSL值、大小、特征出处。

国家人口健康科学数据中心 收录

LibriSpeech

LibriSpeech 是一个大约 1000 小时的 16kHz 英语朗读语音语料库,由 Vassil Panayotov 在 Daniel Povey 的协助下编写。数据来自 LibriVox 项目的已读有声读物,并经过仔细分割和对齐。

OpenDataLab 收录