Duke Lung Cancer Screening Dataset 2024 (DLCS 2024)|肺癌筛查数据集|风险分类数据集
收藏数据集概述
Duke Lung Cancer Screening Dataset 2024 (DLCS 2024)
背景
肺部癌症风险分类是一个日益重要的研究领域,因为低剂量胸部CT筛查项目已成为高风险患者的标准护理。目前,用于肺结节分类算法训练和测试的大型、注释公开数据库有限。
方法
本研究考虑了2015年1月1日至2021年6月30日在杜克大学健康系统进行的筛查胸部CT扫描。通过使用在LUNA16数据集上训练的公开可用深度学习结节检测算法进行半自动结节注释,识别初始候选结节,然后根据放射学文本报告中的结节位置或由医学生和专科培训的心胸放射科医生手动注释接受。
结果
该数据集包含1613个CT体积,带有2487个注释结节,从总共2061名患者的数据集中选出,剩余数据保留用于未来测试。放射科医生的现场检查确认半自动注释的准确率超过90%。
结论
Duke Lung Cancer Screening Dataset 2024是第一个反映当前CT技术使用情况的大型CT筛查数据集。这代表了肺部癌症风险分类研究的有用资源,其描述的高效注释方法可用于未来生成类似数据库。
NLST
背景
在国家肺部筛查试验(NLST)中,我们利用了Mikhael等人(2023年)提供的公开访问注释。我们将超过9000个2D切片级边界框注释从900多名肺癌患者转换为3D表示,结果超过1100个结节注释。
方法
首先在DICOM图像中验证2D注释,然后从DICOM头文件中提取seriesinstanceuid
、slice_location
和slice_number
。随后,将图像坐标位置转换为世界坐标。在相应的NIFTI图像中验证这些注释后,将跨多个切片的相同病变的连续重叠2D注释连接成单个3D注释。
结果
完整的3D注释生成代码和可视化脚本将很快发布。可视化预览可在Jupyter Notebook中查看。
LUNA16
背景
LUNA16是LIDC-IDRI数据集的改进版本,用于外部验证,采用标准的10折交叉验证程序进行肺结节检测。对于使用LUNA16的癌症诊断分类,我们遵循了Pai等人(2024年)的标记方案,该方案将至少有一位放射科医生指示为恶性的结节标记,结果为677个标记结节。
结论
LUNA16数据集用于肺结节检测和癌症诊断分类,提供了标准化的验证方法。

PDT Dataset
PDT数据集是由山东计算机科学中心(国家超级计算济南中心)和齐鲁工业大学(山东省科学院)联合开发的无人机目标检测数据集,专门用于检测树木病虫害。该数据集包含高分辨率和低分辨率两种版本,共计5775张图像,涵盖了健康和受病虫害影响的松树图像。数据集的创建过程包括实地采集、数据预处理和人工标注,旨在为无人机在农业中的精准喷洒提供高精度的目标检测支持。PDT数据集的应用领域主要集中在农业无人机技术,旨在提高无人机在植物保护中的目标识别精度,解决传统检测模型在实际应用中的不足。
arXiv 收录
Breast Ultrasound Images (BUSI)
小型(约500×500像素)超声图像,适用于良性和恶性病变的分类和分割任务。
github 收录
United Nations Commodity Trade Statistics Database (UN Comtrade)
联合国商品贸易统计数据库(UN Comtrade)是一个全球性的贸易数据资源,涵盖了1962年至今的商品贸易数据。该数据库提供了详细的进出口统计数据,包括商品的分类、数量、价值等信息,覆盖了全球200多个国家和地区的贸易活动。数据按月更新,支持多种查询和分析功能。
comtrade.un.org 收录
鸭绿江流域与水系 – 世界地理数据大百科辞条
鸭绿江流域是指鸭绿江干流和支流汇水区,地理位置为39°43′57″N-42°17′28″N,123°35′59″E-128°45′50″E。与其接壤的流域分别是辽河流域(东)、松花江流域(北)、图们江流域(北)、大同江流域(西南)等。鸭绿江流域界线在中国境内从长白山天池火山口的南壁起始,向西南经长白山脉、转向西南至千山山脉的北部,再折向南入海;在朝鲜境内,鸭绿江流域从长白山天池南坡启始向东南经过摩天岭山脉,在头流山(2309 m)转向西南方向的赴战岭山脉,在英雄里附近转向西,经狼林山(2184 m)、广城、松源,转向西南方向的狄逾岭山脉,接江南山脉的南部后至鸭绿江河口。鸭绿江流域面积65215.49 km²,其中,中国境内面积32799.22 km²,朝鲜境内面积32416.27 km²。鸭绿江是中(国)朝(鲜)界河,它起源于长白山天池火山口的南壁,向南经惠山(朝)、折向西经临江(中)、再转向西南直向丹东(中)、新义州(朝),最后在东港(中)和多狮里(朝)附近注入黄海的西朝鲜湾。鸭绿江干流长844.98 km,有几条比较大的支流汇入,包括在朝鲜境内的虛川江、長津江、厚州川、慈城江、禿魯江、忠满江和三桥川;在中国境内的浑江、蒲石河、瑗河等。鸭绿江干流沿中朝国界线自东北向西南流经吉林省的长白朝鲜族自治县、临江市、集安市;辽宁省的桓仁满族自治县、宽甸满族自治县、丹东市和东港市;朝鲜的两江道、慈江道和平安北道。鸭绿江流域地处暖温带湿润季风气候区。年降水量800-1200 mm。流域内多山,最高海拔2745 m,河道比降比较大,达到0.0032,其中在中段可达到0.01。丰富的降水补给和较大的河床比降,使得鸭绿江流域成为亚洲单位面积水资源和水利资源最丰富的流域之一。近80年来,流域内先后建造了水丰水库(中、朝)、渭源水库(中、朝)、铁甲水库(中)、太平哨水库(中)、桓仁水库(中)、回龙山水库(中)、满丰湖水库(朝)、版平里水库(朝)、时中湖水库(朝)、狼林湖水库(朝)、长津湖水库(朝)、赴战湖水库(朝)、丰西湖水库等(朝)。数据文件包括鸭绿江干流、鸭绿江水系和鸭绿江流域地理信息系统数据文件组成。数据集以.kmz 和.shp格式存储,数据量43.8 MB(压缩为20.1 MB)。
国家对地观测科学数据中心 收录
yahoo-finance-data
该数据集包含从Yahoo! Finance、Nasdaq和U.S. Department of the Treasury获取的财务数据,旨在用于研究和教育目的。数据集包括公司详细信息、高管信息、财务指标、历史盈利、股票价格、股息事件、股票拆分、汇率和每日国债收益率等。每个数据集都有其来源、简要描述以及列出的列及其数据类型和描述。数据定期更新,并以Parquet格式提供,可通过DuckDB进行查询。
huggingface 收录