Duke Lung Cancer Screening Dataset 2024 (DLCS 2024)|肺癌筛查数据集|风险分类数据集
收藏数据集概述
Duke Lung Cancer Screening Dataset 2024 (DLCS 2024)
背景
肺部癌症风险分类是一个日益重要的研究领域,因为低剂量胸部CT筛查项目已成为高风险患者的标准护理。目前,用于肺结节分类算法训练和测试的大型、注释公开数据库有限。
方法
本研究考虑了2015年1月1日至2021年6月30日在杜克大学健康系统进行的筛查胸部CT扫描。通过使用在LUNA16数据集上训练的公开可用深度学习结节检测算法进行半自动结节注释,识别初始候选结节,然后根据放射学文本报告中的结节位置或由医学生和专科培训的心胸放射科医生手动注释接受。
结果
该数据集包含1613个CT体积,带有2487个注释结节,从总共2061名患者的数据集中选出,剩余数据保留用于未来测试。放射科医生的现场检查确认半自动注释的准确率超过90%。
结论
Duke Lung Cancer Screening Dataset 2024是第一个反映当前CT技术使用情况的大型CT筛查数据集。这代表了肺部癌症风险分类研究的有用资源,其描述的高效注释方法可用于未来生成类似数据库。
NLST
背景
在国家肺部筛查试验(NLST)中,我们利用了Mikhael等人(2023年)提供的公开访问注释。我们将超过9000个2D切片级边界框注释从900多名肺癌患者转换为3D表示,结果超过1100个结节注释。
方法
首先在DICOM图像中验证2D注释,然后从DICOM头文件中提取seriesinstanceuid
、slice_location
和slice_number
。随后,将图像坐标位置转换为世界坐标。在相应的NIFTI图像中验证这些注释后,将跨多个切片的相同病变的连续重叠2D注释连接成单个3D注释。
结果
完整的3D注释生成代码和可视化脚本将很快发布。可视化预览可在Jupyter Notebook中查看。
LUNA16
背景
LUNA16是LIDC-IDRI数据集的改进版本,用于外部验证,采用标准的10折交叉验证程序进行肺结节检测。对于使用LUNA16的癌症诊断分类,我们遵循了Pai等人(2024年)的标记方案,该方案将至少有一位放射科医生指示为恶性的结节标记,结果为677个标记结节。
结论
LUNA16数据集用于肺结节检测和癌症诊断分类,提供了标准化的验证方法。

中国气象数据
本数据集包含了中国2023年1月至11月的气象数据,包括日照时间、降雨量、温度、风速等关键数据。通过这些数据,可以深入了解气象现象对不同地区的影响,并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。
github 收录
COVID-19 Data Hub
COVID-19 Data Hub是一个全球性的COVID-19数据集,包含了来自多个国家和地区的疫情数据,涵盖了病例数、死亡数、康复数、测试数等信息。此外,数据集还包括了与疫情相关的经济、社会和政策数据。
covid19datahub.io 收录
Beijing Traffic
The Beijing Traffic Dataset collects traffic speeds at 5-minute granularity for 3126 roadway segments in Beijing between 2022/05/12 and 2022/07/25.
Papers with Code 收录
望诊影像数据集及诊断文本数据集
中医望诊数据集包含舌诊图片3000张、面诊图片2000张、目诊图片3000张,舌诊图片的内容部分为舌头(属口颌系统),面诊图片的内容部分包括了面和唇(属其他系统)、眼睛部分做了脱敏处理,目诊图片的内容部分为眼睛(属感觉系统)。该数据集提供舌诊图像的齿痕、裂纹、点刺、苔色、胖瘦的标注信息;以及面诊图像的唇色、唇形、面神的标注信息;目诊图像的特征属性包括颜色名称、颜色HSL值、大小、特征出处。
国家人口健康科学数据中心 收录
LibriSpeech
LibriSpeech 是一个大约 1000 小时的 16kHz 英语朗读语音语料库,由 Vassil Panayotov 在 Daniel Povey 的协助下编写。数据来自 LibriVox 项目的已读有声读物,并经过仔细分割和对齐。
OpenDataLab 收录