five

LIDC-IDRI|医学影像数据集|肺部疾病诊断数据集

收藏
OpenDataLab2025-04-05 更新2024-05-09 收录
医学影像
肺部疾病诊断
下载链接:
https://opendatalab.org.cn/OpenDataLab/LIDC-IDRI
下载链接
链接失效反馈
资源简介:
LIDC-IDRI 数据集包含来自四位经验丰富的胸部放射科医师的病变注释。 LIDC-IDRI 包含来自 1010 名肺部患者的 1018 份低剂量肺部 CT。
提供机构:
OpenDataLab
创建时间:
2022-05-23
AI搜集汇总
数据集介绍
main_image_url
构建方式
LIDC-IDRI数据集的构建基于多中心合作,汇集了来自美国多家顶尖医疗机构的肺部CT扫描图像。该数据集的构建过程严格遵循医学影像的标准化流程,确保每一张图像的质量和诊断价值。通过邀请多位经验丰富的放射科医生对图像进行独立标注,数据集不仅包含了原始的CT图像,还涵盖了详细的注释信息,如肺结节的形态学特征和位置。这些注释经过交叉验证和一致性分析,确保了数据的高可靠性和准确性。
使用方法
LIDC-IDRI数据集广泛应用于医学影像分析和计算机辅助诊断领域。研究者可以利用该数据集进行肺结节检测、分类和分割等任务的算法开发和验证。使用时,建议首先进行数据预处理,如图像标准化和噪声过滤,以提高模型的鲁棒性。随后,可以根据具体研究目标选择合适的机器学习或深度学习模型进行训练和测试。数据集的详细注释信息为模型的评估和优化提供了宝贵的参考。
背景与挑战
背景概述
LIDC-IDRI(The Lung Image Database Consortium and Image Database Resource Initiative)数据集是由美国国家癌症研究所(NCI)主导,联合多家医学影像中心和大学共同开发的一个大型肺部影像数据库。该数据集的构建始于2005年,旨在为肺部疾病的计算机辅助诊断(CAD)研究提供高质量的影像数据。LIDC-IDRI包含了1018个病例的CT扫描图像,每个病例都经过四位放射科专家的独立标注,涵盖了肺结节的各种特征,如大小、形状和密度等。这一数据集的发布极大地推动了肺部疾病诊断技术的进步,尤其是在早期肺癌的检测和分类方面,为后续的算法开发和验证提供了宝贵的资源。
当前挑战
LIDC-IDRI数据集在构建过程中面临了多方面的挑战。首先,由于肺部CT图像的复杂性,如何确保标注的一致性和准确性是一个重要问题。四位专家的独立标注虽然提高了数据的可靠性,但也带来了标注结果的不一致性,这需要通过后处理来解决。其次,数据集中的图像分辨率和扫描参数存在差异,这增加了算法在不同设备和条件下的一致性测试难度。此外,肺结节的多样性和复杂性,如不同大小、形状和密度的结节,也对算法的泛化能力提出了高要求。最后,数据集的隐私和安全问题也是构建过程中必须考虑的重要因素,确保患者信息的保密性是数据集使用的前提。
发展历史
创建时间与更新
LIDC-IDRI数据集创建于2005年,由美国国家癌症研究所(NCI)、美国国家卫生研究院(NIH)以及多家医疗机构共同发起。该数据集在2012年进行了首次公开发布,并在随后的几年中持续更新,以确保数据的准确性和完整性。
重要里程碑
LIDC-IDRI数据集的重要里程碑包括其在2012年的首次公开发布,这一事件标志着肺部影像数据在医学研究中的广泛应用。此外,该数据集在2015年引入了新的标注标准,进一步提升了数据的质量和一致性。2017年,LIDC-IDRI数据集被纳入多个国际医学影像分析竞赛,极大地推动了相关算法的发展和应用。
当前发展情况
当前,LIDC-IDRI数据集已成为肺部影像分析领域的基准数据集,广泛应用于计算机辅助诊断(CAD)系统的开发和评估。该数据集不仅为研究人员提供了丰富的肺结节影像数据,还促进了深度学习算法在医学影像分析中的应用。此外,LIDC-IDRI数据集的开放性和标准化特性,为全球范围内的医学影像研究提供了宝贵的资源,推动了医学影像技术的进步和临床应用的普及。
发展历程
  • LIDC-IDRI数据集的构想首次提出,旨在创建一个用于肺结节检测和诊断研究的标准化数据集。
    2004年
  • 开始收集和整理来自多家医疗机构的CT扫描图像,为数据集的构建奠定基础。
    2005年
  • LIDC-IDRI数据集正式发布,包含1018个病例的CT扫描图像,每个病例由四位放射科医生独立标注。
    2007年
  • 数据集首次应用于国际肺结节检测挑战赛(Lung Nodule Analysis Challenge),推动了肺结节检测算法的发展。
    2008年
  • LIDC-IDRI数据集被广泛应用于多个医学影像分析研究项目,成为肺结节检测和诊断领域的标准数据集之一。
    2011年
  • 随着深度学习技术的发展,LIDC-IDRI数据集开始被用于训练和验证基于深度学习的肺结节检测模型。
    2015年
  • LIDC-IDRI数据集继续作为肺结节检测和诊断研究的重要资源,支持了多项前沿技术的研究和应用。
    2020年
常用场景
经典使用场景
在医学影像分析领域,LIDC-IDRI数据集被广泛用于肺结节检测与分类的研究。该数据集包含了大量的高分辨率CT扫描图像,每张图像都经过多位放射科专家的标注,提供了丰富的结节特征信息。研究者利用这些标注数据,开发和验证了多种肺结节检测算法,显著提升了早期肺癌的诊断准确率。
解决学术问题
LIDC-IDRI数据集解决了医学影像分析中肺结节检测的难题。通过提供多专家标注的CT图像,该数据集为研究者提供了一个标准化的评估平台,使得不同算法之间的性能比较成为可能。这不仅推动了肺结节检测技术的进步,还为其他医学影像分析任务提供了宝贵的参考。
实际应用
在临床实践中,LIDC-IDRI数据集的应用主要体现在辅助放射科医生进行肺结节的早期检测。通过训练和验证的算法,可以快速筛选出疑似结节的区域,减少医生的工作负担,提高诊断效率。此外,该数据集还支持开发个性化的治疗方案,为患者提供更精准的医疗服务。
数据集最近研究
最新研究方向
在医学影像分析领域,LIDC-IDRI数据集因其丰富的肺部CT图像和详细的标注信息,成为研究肺结节检测与分类的重要资源。近期研究主要集中在利用深度学习技术提升肺结节的自动检测和分类精度。通过引入多模态数据融合和迁移学习策略,研究者们致力于解决数据不平衡和标注不一致的问题,从而提高模型的泛化能力和临床应用价值。此外,随着人工智能在医疗诊断中的应用日益广泛,LIDC-IDRI数据集的研究成果对于推动精准医疗和早期癌症筛查具有重要意义。
相关研究论文
  • 1
    The Lung Image Database Consortium (LIDC) and Image Database Resource Initiative (IDRI): A Completed Reference Database of Lung Nodules on CT ScansNational Institutes of Health · 2015年
  • 2
    A Comprehensive Assessment of Radiomics in Lung Nodule Classification Using the LIDC-IDRI DatasetUniversity of California, San Francisco · 2020年
  • 3
    Deep Learning for Lung Cancer Detection Using the LIDC-IDRI DatasetStanford University · 2019年
  • 4
    Automated Lung Nodule Detection Using 3D Convolutional Neural Networks on the LIDC-IDRI DatasetMassachusetts Institute of Technology · 2018年
  • 5
    Evaluation of Machine Learning Algorithms for Lung Nodule Classification in the LIDC-IDRI DatasetHarvard Medical School · 2017年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

Nexdata/chinese_dialect

该数据集包含25,000小时的中文方言语音数据,收集自多个方言区域的本地方言使用者,涵盖闽南语、粤语、四川话、河南话、东北话、上海话、维吾尔语和藏语等。数据格式为16kHz、16bit、未压缩的wav文件,单声道。句子准确率超过95%。数据集支持的任务包括自动语音识别(ASR)和音频说话人识别。

hugging_face 收录

TCIA: The Cancer Imaging Archive

TCIA: The Cancer Imaging Archive 是一个公开的癌症影像数据库,包含多种癌症类型的影像数据,如乳腺癌、肺癌、脑癌等。数据集还包括相关的临床数据和生物标记物信息,旨在支持癌症研究和临床应用。

www.cancerimagingarchive.net 收录

中国1km分辨率逐月平均气温数据集(1901-2024)

该数据为中国逐月平均温度数据,空间分辨率为0.0083333°(约1km),时间为1901.1-2024.12。数据格式为NETCDF,即.nc格式。数据单位为0.1 ℃。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集,通过Delta空间降尺度方案在中国降尺度生成的。并且,使用496个独立气象观测点数据进行验证,验证结果可信。本数据集包含的地理空间范围是全国主要陆地(包含港澳台地区),不含南海岛礁等区域。nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理,Matlab发布了读入与存储nc文件的函数,读取函数为ncread,切换到nc文件存储文件夹,语句表达为:ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent]),其中XXX.nc为文件名,为字符串需要’’;var是从XXX.nc中读取的变量名,为字符串需要’’;i、j、t分别为读取数据的起始行、列、时间,leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样,研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令,可查看。数据坐标系统建议使用WGS84。

国家青藏高原科学数据中心 收录

China Health and Nutrition Survey (CHNS)

China Health and Nutrition Survey(CHNS)是一项由美国北卡罗来纳大学人口中心与中国疾病预防控制中心营养与健康所合作开展的长期开放性队列研究项目,旨在评估国家和地方政府的健康、营养与家庭计划政策对人群健康和营养状况的影响,以及社会经济转型对居民健康行为和健康结果的作用。该调查覆盖中国15个省份和直辖市的约7200户家庭、超过30000名个体,采用多阶段随机抽样方法,收集了家庭、个体以及社区层面的详细数据,包括饮食、健康、经济和社会因素等信息。自2011年起,CHNS不断扩展,新增多个城市和省份,并持续完善纵向数据链接,为研究中国社会经济变化与健康营养的动态关系提供了重要的数据支持。

www.cpc.unc.edu 收录

Beijing Traffic

The Beijing Traffic Dataset collects traffic speeds at 5-minute granularity for 3126 roadway segments in Beijing between 2022/05/12 and 2022/07/25.

Papers with Code 收录