luna16-dp2d
收藏Hugging Face2026-05-20 更新2026-05-21 收录
下载链接:
https://huggingface.co/datasets/nourbourai/luna16-dp2d
下载链接
链接失效反馈官方服务:
资源简介:
LUNA16-DP2D是一个精心整理的2D轴向CT切片数据集,源自完整的LUNA16挑战数据集(包含888次扫描,子集0-9)。该数据集专为诊断保留图像压缩研究而设计,旨在开发能够为解剖学重要区域(如肺、纵隔、结节)分配更多比特的系统,而非单纯优化感知质量(如PSNR/SSIM)。数据集包含6,216个512×512的原始CT切片(格式为int16 HU),以及对应的二值肺掩码(uint8格式,值为0或1)和二值结节掩码(uint8格式,值为0或1)。切片从每次扫描的轴向深度中按特定百分位(10, 25, 40, 50, 60, 75, 90)抽取,共7个切片×888次扫描。肺掩码来源于seg-lungs-LUNA16(经过二值化处理),结节掩码来源于annotations.csv(通过椭球投影生成)。验证显示所有掩码均为二进制值,肺覆盖率平均在12-25%之间,结节命中率为3.5%(即220/6216个切片包含结节)。数据集适用于医学图像分割、图像到图像任务,特别是诊断感知的图像压缩、肺部分割、结节检测和基于解剖注意力的编码研究。随附的metadata.csv文件提供了每个切片的详细元数据,包括文件名、子集、原始扫描ID、百分位、切片索引、形状、数据类型和HU统计信息。数据集使用CC BY 4.0许可证。
LUNA16-DP2D is a meticulously curated 2D axial CT slice dataset derived from the complete LUNA16 challenge dataset (comprising 888 scans, subsets 0-9). This dataset is specifically designed for diagnostic-preserving image compression research, aiming to develop systems that allocate more bits to anatomically significant regions (such as lungs, mediastinum, and nodules) rather than merely optimizing perceptual quality (e.g., PSNR/SSIM). The dataset includes 6,216 raw CT slices of size 512×512 (in int16 HU format), along with corresponding binary lung masks (uint8 format, values 0/1) and binary nodule masks (uint8 format, values 0/1). Slices are extracted from the axial depth of each scan at specific percentiles (10, 25, 40, 50, 60, 75, 90), resulting in 7 slices per scan × 888 scans. Lung masks are sourced from seg-lungs-LUNA16 (after binarization), and nodule masks are derived from annotations.csv (via ellipsoid projection). Validation confirms that all masks are binary, with an average lung coverage of 12-25% and a nodule hit rate of 3.5% (220/6216 slices). The dataset is suitable for medical image segmentation, image-to-image tasks, particularly diagnostic-aware image compression, lung segmentation, nodule detection, and anatomy-attentive encoding research. An accompanying metadata.csv file provides detailed metadata for each slice, including filename, subset, original scan ID, percentile, slice index, shape, data type, and HU statistics. The dataset is licensed under CC BY 4.0.
创建时间:
2026-05-12
原始信息汇总
数据集概述:LUNA16-DiagnosticPreservation-2D (LUNA16-DP2D)
该数据集是一个经过筛选的2D轴向CT切片数据集,源自完整的 LUNA16 挑战赛(888次扫描,子集0–9)。其设计初衷是服务于诊断保留图像压缩研究,即优先将比特分配到解剖学上重要的区域(肺、纵隔、结节),而非纯粹优化感知质量(PSNR/SSIM)。
数据集规模与构成
- 总切片数:6,216 张
- 切片维度:512×512 像素
- 数据类型:int16,单位为HU(亨氏单位)
- 文件构成:
slices/:6,216个.npy文件,存储原始CT切片masks/lung_mask/:6,216个.npy文件,二值肺掩膜(0=背景, 1=肺+气管)masks/nodule_mask/:6,216个.npy文件,二值结节掩膜(0=背景, 1=结节)metadata.csv:1个,包含每个切片的元数据
切片提取策略
从每次扫描的轴向深度中,按以下百分位数提取切片:[10, 25, 40, 50, 60, 75, 90]。计算方式为 idx = int(round(p / 100.0 * (depth - 1)))。共生成 7 切片/扫描 × 888 扫描 = 6,216 张切片。
掩膜来源与验证
- 肺掩膜:源自
seg-lungs-LUNA16(二值化处理) - 结节掩膜:基于
annotations.csv(椭球投影生成) - 验证结果:
- 所有6,216张切片的掩膜均为二值(0/1)
- 第25至75百分位切片的肺覆盖率均值约为12–25%
- 结节命中率约为3.5%(220/6,216张切片包含结节)
- 结节呈圆形且位于肺内部(经视觉确认)
元数据(metadata.csv)列说明
| 列名 | 描述 |
|---|---|
filename |
切片文件名 |
subset |
LUNA16子集(subset0–subset9) |
original_scan |
系列UID |
percentile |
提取使用的百分位数(10/25/40/50/60/75/90) |
slice_index |
提取的精确轴向索引 |
shape |
切片形状(始终为512x512) |
dtype |
数组数据类型 |
min / max / mean / std |
HU统计值 |
用途与代码示例
- 加载切片与掩膜:通过
numpy.load()读取对应的.npy文件 - PyTorch DataLoader:可使用
medical_image_dataset_v4中的build_loaders函数加载,每个batch包含image、filename、patch_row、patch_col - 诊断重要性图:通过
DiagnosticEvaluator构建重要性图,值分布:0.0=空气、0.3=软组织、0.6=纵隔、0.8=肺、1.0=结节 - CT归一化:建议使用标准软组织窗([-1000, 400] HU)映射到[0, 1]范围
许可证
CC BY 4.0,衍生自LUNA16 / LIDC-IDRI(同样采用CC BY 4.0)。使用时须同时引用本数据集和原始LUNA16论文。
相关链接
- Zenodo(可引用、永久):https://doi.org/10.5281/zenodo.XXXXXXX
- HuggingFace(本页面)
- Kaggle:https://www.kaggle.com/datasets/narita222/luna16-diagnostic-preservation-ct-dataset-2d
- 代码仓库:https://github.com/narita222/luna16-dp2d
- LUNA16 挑战赛:https://luna16.grand-challenge.org/
搜集汇总
数据集介绍

构建方式
LUNA16-DP2D数据集源自完整的LUNA16挑战赛,包含888次扫描的十个子集。在构建过程中,研究者从每次扫描的轴向深度中提取了七个关键百分位(10%、25%、40%、50%、60%、75%、90%)的二维CT切片,共计6216张512×512像素的原始HU值图像。针对每张切片,数据集提供了两种互补的二进制掩膜:肺掩膜源自seg-lungs-LUNA16的自动化分割结果,结节掩膜则基于annotations.csv中的椭球投影生成。所有掩膜经过严格验证,确保了二值化纯度、肺覆盖范围及结节命中率的可靠性。
使用方法
研究人员可通过简单直观的Python接口加载数据集,使用NumPy直接读取npy格式的切片与掩膜文件。为便于深度学习框架集成,数据集提供了PyTorch DataLoader构建函数,支持批量加载、CT图像标准化以及可选的随机块提取。使用者可以调用内置的诊断评估器,根据肺和结节掩膜自动构建256×256像素块级别的诊断重要性映射,该映射为压缩模型提供了每个区域的语义重要性权重。CT图像建议采用标准软组织窗(-1000至400 HU)进行归一化至[0,1]区间,以符合常见医学影像处理流程。
背景与挑战
背景概述
在医学影像压缩领域中,如何在显著降低数据存储与传输开销的同时,保留对临床诊断至关重要的解剖结构信息,始终是一项亟待突破的核心难题。LUNA16-DP2D数据集由Nour El Houda Bourai于2025年基于LUNA16挑战赛(2017年发布,由Arnaud Arindra Adiyoso Setio等研究者主导)的888例CT扫描构建而成,专为诊断保留型图像压缩算法研究而设计。该数据集从每个CT扫描的轴向深度中提取七个百分位切片,共计6216张二维CT切片,并配以肺实质和肺结节的精确二值掩膜,为探索基于解剖区域注意力机制的高效压缩策略提供了标准化的评测基准。LUNA16-DP2D的发布推动了医学影像压缩从单纯追求感知质量指标向兼顾临床诊断效能的范式转变,对降低医疗影像存储成本、促进远程医疗发展具有重要影响。
当前挑战
LUNA16-DP2D数据集所面临的核心挑战存在于两个方面。在领域问题层面,传统图像压缩方法(如JPEG、JPEG2000)以PSNR或SSIM为优化目标,倾向于均匀分配码率,却忽视了肺结节、纵隔等诊断关键区域的细节保全;如何在压缩比与诊断信息保留之间取得最优平衡,仍是医学图像压缩领域的开放性难题。在数据集构建层面,从原始LUNA16的三维CT体积中选取具有代表性的二维切片时,需要兼顾肺结节分布稀疏性与解剖结构完整性,最终采用的七个百分位提取策略虽能覆盖主支气管至横膈膜范围,但仍可能遗漏位于极端位置的小结节;此外,结节掩膜源于椭圆体投影而非像素级精细标注,其准确性与边界保真度存在固有局限,可能影响下游模型对病灶区域重要性的学习效果。
常用场景
经典使用场景
LUNA16-DP2D数据集源自完整的LUNA16挑战赛,从888次CT扫描中提取了6216张二维轴向切片,并提供了肺实质、纵隔及肺结节等解剖结构的精确标注掩膜。其经典使用场景在于为医学图像压缩领域的算法研究提供基准数据,尤其是那些致力于在压缩过程中保持诊断关键区域信息完整性的方法。研究人员可利用该数据集训练和评估基于注意力机制的图像压缩模型,这些模型能够依据解剖重要性动态分配比特率,优先保障肺部和结节区域的保真度,而非单纯追求传统视觉质量指标。
解决学术问题
该数据集核心解决了医学图像压缩中诊断信息保留与压缩率之间的长期矛盾。传统压缩算法如JPEG或HEVC,尽管在自然图像上表现优异,却常导致CT影像中微小但关键的病变特征(如肺结节)在压缩后丢失或畸变,从而影响临床诊断。LUNA16-DP2D通过提供带有解剖重要性标签的标准化切片,使研究者能够量化压缩过程对诊断信息的破坏程度,并开发出以诊断保真度为导向的优化目标,推动了医学图像压缩从感知质量优先向诊断意义优先的范式转变。
实际应用
在实际临床环境中,LUNA16-DP2D驱动的技术可应用于远程医疗、云存储及移动端影像传输等场景,其中带宽和存储资源常受限。基于该数据集训练的压缩模型能有效降低CT影像的传输与存储成本,同时确保放射科医生在解压后仍能准确检出肺结节等病症。此外,该数据集还可用于开发嵌入式智能设备上的实时影像预处理模块,通过优先保护关键解剖区域,在低码率条件下维持辅助诊断系统的可靠性。
数据集最近研究
最新研究方向
LUNA16-DP2D数据集的问世标志着医学影像压缩领域迈入了一个以诊断信息保留为核心的新纪元。在深度学习与精准医疗深度融合的当下,该数据集聚焦于CT影像的解剖注意力压缩技术,突破传统基于PSNR/SSIM的感知质量评估框架,创新性地提出依据肺实质、纵隔及肺结节的解剖重要性进行非均匀比特分配。这一方向紧密关联可解释人工智能与医学图像分析的前沿交叉地带,尤其在后疫情时代胸部影像数据爆炸性增长的背景下,其研究意义尤为凸显。通过提供7个关键轴向百分位的2D切片及其精细的二值化肺掩膜与结节掩膜,该数据集为发展面向诊断任务的无损或近无损压缩算法奠定了标准化基石,有望大幅减轻医疗数据在存储与传输环节的负担,同时确保下游结节检测等临床任务的性能不受折损,推动远程放射学与资源受限环境下的智能诊疗落地。
以上内容由遇见数据集搜集并总结生成



