five

Duke Lung Cancer Screening Dataset 2024 (DLCS 2024)|肺癌筛查数据集|风险分类数据集

收藏
github2024-09-30 更新2024-10-05 收录
肺癌筛查
风险分类
下载链接:
https://github.com/fitushar/AI-in-Lung-Health-Benchmarking-Detection-and-Diagnostic-Models-Across-Multiple-CT-Scan-Datasets
下载链接
链接失效反馈
资源简介:
Duke Lung Cancer Screening Dataset 2024 (DLCS 2024) 是一个用于肺癌风险分类研究的数据集,随着低剂量胸部CT筛查项目的普及,该数据集变得越来越重要。
创建时间:
2024-09-28
原始信息汇总

数据集概述

Duke Lung Cancer Screening Dataset 2024 (DLCS 2024)

背景

肺部癌症风险分类是一个日益重要的研究领域,因为低剂量胸部CT筛查项目已成为高风险患者的标准护理。目前,用于肺结节分类算法训练和测试的大型、注释公开数据库有限。

方法

本研究考虑了2015年1月1日至2021年6月30日在杜克大学健康系统进行的筛查胸部CT扫描。通过使用在LUNA16数据集上训练的公开可用深度学习结节检测算法进行半自动结节注释,识别初始候选结节,然后根据放射学文本报告中的结节位置或由医学生和专科培训的心胸放射科医生手动注释接受。

结果

该数据集包含1613个CT体积,带有2487个注释结节,从总共2061名患者的数据集中选出,剩余数据保留用于未来测试。放射科医生的现场检查确认半自动注释的准确率超过90%。

结论

Duke Lung Cancer Screening Dataset 2024是第一个反映当前CT技术使用情况的大型CT筛查数据集。这代表了肺部癌症风险分类研究的有用资源,其描述的高效注释方法可用于未来生成类似数据库。

NLST

背景

在国家肺部筛查试验(NLST)中,我们利用了Mikhael等人(2023年)提供的公开访问注释。我们将超过9000个2D切片级边界框注释从900多名肺癌患者转换为3D表示,结果超过1100个结节注释。

方法

首先在DICOM图像中验证2D注释,然后从DICOM头文件中提取seriesinstanceuidslice_locationslice_number。随后,将图像坐标位置转换为世界坐标。在相应的NIFTI图像中验证这些注释后,将跨多个切片的相同病变的连续重叠2D注释连接成单个3D注释。

结果

完整的3D注释生成代码和可视化脚本将很快发布。可视化预览可在Jupyter Notebook中查看。

LUNA16

背景

LUNA16是LIDC-IDRI数据集的改进版本,用于外部验证,采用标准的10折交叉验证程序进行肺结节检测。对于使用LUNA16的癌症诊断分类,我们遵循了Pai等人(2024年)的标记方案,该方案将至少有一位放射科医生指示为恶性的结节标记,结果为677个标记结节。

结论

LUNA16数据集用于肺结节检测和癌症诊断分类,提供了标准化的验证方法。

AI搜集汇总
数据集介绍
main_image_url
构建方式
Duke Lung Cancer Screening Dataset 2024 (DLCS 2024) 的构建基于Duke University Health System在2015年1月至2021年6月期间进行的筛查胸部CT扫描。数据集的标注过程采用了半自动化的方法,首先利用基于LUNA16数据集训练的深度学习算法进行初步候选点的识别,随后根据放射学报告中的结节位置或由医学学生和专科放射科医生手动标注。最终,数据集包含1613个CT体积,其中2487个结节被标注,准确率超过90%。
特点
DLCS 2024 数据集的主要特点在于其大规模和高质量的标注,涵盖了超过2000名患者的CT扫描数据。此外,数据集的构建方法结合了自动化和人工校验,确保了标注的准确性和可靠性。该数据集不仅适用于肺结节检测任务,还可用于癌症分类任务,为AI模型在肺健康领域的研究和应用提供了坚实的基础。
使用方法
使用DLCS 2024数据集时,用户可以下载包含CT扫描和标注信息的完整数据集。数据预处理步骤包括将CT体积重采样至标准分辨率,并进行强度值的裁剪和归一化。模型训练和验证可以通过MONAI框架进行,使用3D RetinaNet模型进行肺结节检测,或使用多种预训练模型进行癌症分类。详细的训练和评估流程可在提供的配置文件和脚本中找到,确保研究的可重复性和高效性。
背景与挑战
背景概述
Duke Lung Cancer Screening Dataset 2024 (DLCS 2024) 是由Duke University Health System在2015年至2021年间收集的低剂量胸部CT扫描数据集,旨在支持肺癌早期检测和分类研究。该数据集包含超过2,000个CT扫描图像,涉及1,613名患者,并标注了超过3,000个肺结节。主要研究人员包括Fakrul Islam Tushar、Avivah Wang等,他们通过半自动化的方法进行结节标注,确保了数据的高准确性。DLCS 2024的发布填补了大规模、高质量肺癌筛查数据集的空白,对推动人工智能在肺癌诊断中的应用具有重要意义。
当前挑战
DLCS 2024数据集在构建过程中面临多项挑战。首先,肺癌筛查领域的数据集稀缺,高质量的标注数据尤为难得,这限制了AI模型的训练和验证。其次,数据标注过程复杂,需要结合深度学习算法和专业放射科医生的判断,确保标注的准确性和一致性。此外,数据集的多样性和代表性也是一个重要挑战,确保模型在不同患者群体和不同设备上的泛化能力。最后,数据集的隐私和安全问题也需严格管理,以保护患者信息不被滥用。
常用场景
经典使用场景
Duke Lung Cancer Screening Dataset 2024 (DLCS 2024) 主要用于肺结节检测和癌症分类任务。该数据集包含超过2,000个CT扫描图像,涵盖1,613名患者,并附有超过3,000个注释。通过使用深度学习模型,如DLCSD-mD和LUNA16-mD,研究人员能够在内部和外部数据集上进行验证,评估模型在不同数据集上的泛化能力。
解决学术问题
DLCS 2024 数据集解决了肺部CT扫描数据集稀缺的问题,为研究人员提供了一个大规模、高质量的注释数据集。这有助于推动肺结节检测和癌症分类模型的研究,提高模型的准确性和可靠性。通过在多个数据集上的验证,该数据集还促进了模型在不同临床环境中的适应性和鲁棒性研究。
衍生相关工作
基于DLCS 2024 数据集,研究人员开发了多种肺结节检测和癌症分类模型,如DLCSD-mD和LUNA16-mD。这些模型不仅在内部数据集上表现优异,还在外部数据集如LUNA16和NLST上进行了验证。此外,该数据集还激发了关于模型泛化能力和数据集多样性的研究,推动了医学AI领域的进一步发展。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

PDT Dataset

PDT数据集是由山东计算机科学中心(国家超级计算济南中心)和齐鲁工业大学(山东省科学院)联合开发的无人机目标检测数据集,专门用于检测树木病虫害。该数据集包含高分辨率和低分辨率两种版本,共计5775张图像,涵盖了健康和受病虫害影响的松树图像。数据集的创建过程包括实地采集、数据预处理和人工标注,旨在为无人机在农业中的精准喷洒提供高精度的目标检测支持。PDT数据集的应用领域主要集中在农业无人机技术,旨在提高无人机在植物保护中的目标识别精度,解决传统检测模型在实际应用中的不足。

arXiv 收录

Breast Ultrasound Images (BUSI)

小型(约500×500像素)超声图像,适用于良性和恶性病变的分类和分割任务。

github 收录

United Nations Commodity Trade Statistics Database (UN Comtrade)

联合国商品贸易统计数据库(UN Comtrade)是一个全球性的贸易数据资源,涵盖了1962年至今的商品贸易数据。该数据库提供了详细的进出口统计数据,包括商品的分类、数量、价值等信息,覆盖了全球200多个国家和地区的贸易活动。数据按月更新,支持多种查询和分析功能。

comtrade.un.org 收录

鸭绿江流域与水系 – 世界地理数据大百科辞条

鸭绿江流域是指鸭绿江干流和支流汇水区,地理位置为39&deg43′57″N-42&deg17′28″N,123&deg35′59″E-128&deg45′50″E。与其接壤的流域分别是辽河流域(东)、松花江流域(北)、图们江流域(北)、大同江流域(西南)等。鸭绿江流域界线在中国境内从长白山天池火山口的南壁起始,向西南经长白山脉、转向西南至千山山脉的北部,再折向南入海;在朝鲜境内,鸭绿江流域从长白山天池南坡启始向东南经过摩天岭山脉,在头流山(2309 m)转向西南方向的赴战岭山脉,在英雄里附近转向西,经狼林山(2184 m)、广城、松源,转向西南方向的狄逾岭山脉,接江南山脉的南部后至鸭绿江河口。鸭绿江流域面积65215.49 km&sup2,其中,中国境内面积32799.22 km&sup2,朝鲜境内面积32416.27 km&sup2。鸭绿江是中(国)朝(鲜)界河,它起源于长白山天池火山口的南壁,向南经惠山(朝)、折向西经临江(中)、再转向西南直向丹东(中)、新义州(朝),最后在东港(中)和多狮里(朝)附近注入黄海的西朝鲜湾。鸭绿江干流长844.98 km,有几条比较大的支流汇入,包括在朝鲜境内的虛川江、長津江、厚州川、慈城江、禿魯江、忠满江和三桥川;在中国境内的浑江、蒲石河、瑗河等。鸭绿江干流沿中朝国界线自东北向西南流经吉林省的长白朝鲜族自治县、临江市、集安市;辽宁省的桓仁满族自治县、宽甸满族自治县、丹东市和东港市;朝鲜的两江道、慈江道和平安北道。鸭绿江流域地处暖温带湿润季风气候区。年降水量800-1200 mm。流域内多山,最高海拔2745 m,河道比降比较大,达到0.0032,其中在中段可达到0.01。丰富的降水补给和较大的河床比降,使得鸭绿江流域成为亚洲单位面积水资源和水利资源最丰富的流域之一。近80年来,流域内先后建造了水丰水库(中、朝)、渭源水库(中、朝)、铁甲水库(中)、太平哨水库(中)、桓仁水库(中)、回龙山水库(中)、满丰湖水库(朝)、版平里水库(朝)、时中湖水库(朝)、狼林湖水库(朝)、长津湖水库(朝)、赴战湖水库(朝)、丰西湖水库等(朝)。数据文件包括鸭绿江干流、鸭绿江水系和鸭绿江流域地理信息系统数据文件组成。数据集以.kmz 和.shp格式存储,数据量43.8 MB(压缩为20.1 MB)。

国家对地观测科学数据中心 收录

yahoo-finance-data

该数据集包含从Yahoo! Finance、Nasdaq和U.S. Department of the Treasury获取的财务数据,旨在用于研究和教育目的。数据集包括公司详细信息、高管信息、财务指标、历史盈利、股票价格、股息事件、股票拆分、汇率和每日国债收益率等。每个数据集都有其来源、简要描述以及列出的列及其数据类型和描述。数据定期更新,并以Parquet格式提供,可通过DuckDB进行查询。

huggingface 收录