five

farrell236/DeepLesion

收藏
Hugging Face2024-06-22 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/farrell236/DeepLesion
下载链接
链接失效反馈
官方服务:
资源简介:
NIH DeepLesion数据集包含32,120个轴向计算机断层扫描(CT)切片,来自4,427名独特患者的10,594次CT扫描。每个图像包含1-3个病变,并附有边界框和大小测量,总计32,735个病变。病变注释是从NIH的图片存档和通信系统(PACS)中挖掘的。

NIH DeepLesion数据集包含32,120个轴向计算机断层扫描(CT)切片,来自4,427名独特患者的10,594次CT扫描。每个图像包含1-3个病变,并附有边界框和大小测量,总计32,735个病变。病变注释是从NIH的图片存档和通信系统(PACS)中挖掘的。
提供机构:
farrell236
原始信息汇总

NIH DeepLesion Dataset

简介

DeepLesion 数据集包含来自 10,594 个 CT 扫描(研究)的 32,120 个轴向计算机断层扫描(CT)切片,涉及 4,427 名独特患者。每张图像中有 1-3 个病变,并附有边界框和大小测量,总共 32,735 个病变。这些病变注释是从 NIH 的图像存档和通信系统(PACS)中挖掘出来的。

Git 仓库结构

Git 分支:

  • Images_png:此分支包含 PNG 图像文件,命名格式为 {patient index}_{study index}_{series index}_{slice index}.png。子文件夹通过在最后一个下划线后使用 / 或 `` 表示。所有图像保存为无符号 16 位整数。要将像素强度恢复到原始的 Hounsfield Unit(HU)值,请从像素强度中减去 32768(参见 scripts/apply_window.py 示例)。还包括 3D 上下文,上下各增加 30mm 的切片以进行彻底检查。
  • Images_png_wn:所有切片已转换为 8 位 PNG 格式,根据 DL_info.csv 进行强度窗口化,并重新缩放到 [0-255] 范围,适用于机器学习应用。
  • Images_nifti:从提供的 2D 16 位 PNG 图像派生的 3D NIfTI 子体积,格式为 .nii.gz
  • Images_zips:提供 56 个压缩 zip 文件供下载。使用 batch_download_zips.py 脚本批量下载这些文件。
  • Key_slices:关键切片覆盖病变注释,用于审查目的。

主分支内容:

  • DL_info.csv:DeepLesion 注释和元数据。
  • scripts/apply_window.py:用于对 16 位 PNG 图像应用强度窗口化和归一化的 Python 代码。
  • scripts/batch_download_zips.py:用于通过 56 个压缩 zip 文件批量下载 Images_png 的 Python 代码。
  • scripts/DL_save_nifti.py:用于将 2D 16 位切片转换为 3D nifti 体积的 Python 代码。

引用

@article{yan2018deeplesion, title={DeepLesion: automated mining of large-scale lesion annotations and universal lesion detection with deep learning}, author={Yan, Ke and Wang, Xiaosong and Lu, Le and Summers, Ronald M}, journal={Journal of medical imaging}, volume={5}, number={3}, pages={036501--036501}, year={2018}, publisher={Society of Photo-Optical Instrumentation Engineers} }

搜集汇总
数据集介绍
main_image_url
构建方式
在医学影像分析领域,构建高质量标注数据集对于推动病灶检测算法的研究至关重要。DeepLesion数据集的构建过程体现了这一需求,其核心标注来源于美国国立卫生研究院(NIH)的影像归档与通信系统(PACS),通过自动化挖掘技术,从10,594份CT扫描中提取了32,120个轴向断层图像。每个图像包含1至3个病灶,共计32,735个病灶实例,并辅以精确的边界框与尺寸测量标注,确保了数据来源的临床真实性与标注的可靠性。
特点
该数据集在医学影像数据集中具有显著特点,其不仅提供了大规模的病灶标注,还涵盖了多样化的病灶类型与解剖位置,为通用病灶检测研究提供了宝贵资源。数据以多种格式呈现,包括原始的16位PNG图像、经过窗宽窗位调整的8位PNG图像以及三维NIfTI格式的子体积,满足了不同研究场景的需求。尤为重要的是,数据集包含了关键切片上下各30毫米的三维上下文信息,为理解病灶的空间特征提供了更全面的视角。
使用方法
研究人员可利用该数据集进行病灶检测、分割与分类等任务的模型训练与评估。使用前需下载相应的图像分支,如`Images_png`或`Images_png_wn`,并参考`DL_info.csv`文件中的元数据与标注信息。对于原始16位图像,需通过减去32768以恢复亨氏单位值,或利用提供的`apply_window.py`脚本进行强度窗调整。数据集还提供了批量下载脚本与NIfTI格式转换工具,便于高效的数据管理与预处理流程集成。
背景与挑战
背景概述
在医学影像分析领域,大规模、高质量标注数据集的构建对于推动深度学习模型在病灶检测与量化分析方面的研究至关重要。DeepLesion数据集由美国国立卫生研究院(NIH)的研究团队于2018年创建,主要研究人员包括Ke Yan、Xiaosong Wang、Le Lu和Ronald M. Summers。该数据集的核心研究问题在于实现跨多种病灶类型的通用检测与测量,通过整合来自临床影像归档与通信系统(PACS)的标注信息,提供了超过三万张CT切片及病灶边界框与尺寸标注。DeepLesion的发布显著促进了医学影像中病灶自动识别与量化分析技术的发展,为后续研究提供了重要的基准数据资源。
当前挑战
DeepLesion数据集旨在应对医学影像中通用病灶检测的复杂挑战,其核心问题在于如何从多样化的CT影像中准确识别与测量不同形态、大小及类型的病灶,这对模型的泛化能力与鲁棒性提出了极高要求。在构建过程中,研究团队面临的主要挑战包括从临床PACS系统中自动化挖掘并整合病灶标注信息,确保标注的准确性与一致性;同时,处理大规模CT数据时需克服数据异构性、切片间空间对齐以及强度标准化等技术难题,以构建适用于机器学习的高质量三维上下文数据。
常用场景
经典使用场景
在医学影像分析领域,DeepLesion数据集以其大规模、多病灶标注的CT切片特性,成为深度学习模型训练与验证的经典资源。该数据集广泛应用于通用病灶检测算法的开发,研究者利用其丰富的边界框与尺寸测量标注,构建端到端的检测网络,实现对多种类型病灶(如肺结节、肝病变等)的自动化识别与定位,显著提升了模型在复杂临床影像中的泛化能力。
解决学术问题
DeepLesion数据集有效解决了医学影像分析中标注数据稀缺、病灶类型单一的核心学术挑战。通过整合来自真实临床环境的多样化病灶标注,该数据集支持跨病灶类型的统一检测框架研究,促进了迁移学习与领域自适应方法的发展。其意义在于推动了通用病灶检测这一新兴方向,为构建能够处理多类别、多尺度病灶的智能诊断系统奠定了数据基础,对放射学人工智能的标准化与规模化应用产生了深远影响。
衍生相关工作
围绕DeepLesion数据集,学术界衍生出一系列经典研究工作。例如,Universal Lesion Detector (ULDor) 等模型利用该数据实现了跨模态病灶检测;部分研究专注于改进标注效率,提出了弱监督或半监督学习框架以缓解标注成本问题;另有工作探索了三维上下文信息的利用,开发了基于CT序列的容积检测算法。这些成果共同推动了医学影像检测技术向更通用、更鲁棒的方向演进。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作