LIDC-IDRI lung lesion dataset

Name: LIDC-IDRI lung lesion dataset
Creator: 丹麦技术大学，应用数学与计算机科学系
Published: 2025-04-08 20:33:26
License: 暂无描述

arXiv2025-04-08 更新2025-04-10 收录

下载链接：

http://arxiv.org/abs/2504.05977v1

下载链接

链接失效反馈

官方服务：

资源简介：

LIDC-IDRI肺病变数据集是由丹麦技术大学应用数学与计算机科学系创建的，这是一个包含1018个三维胸部CT图像的数据集，被广泛用于医学图像分割任务。数据集以2D切片形式提供，每个切片都有4位专家的独立注释，这使得它成为研究医学图像分割不确定性的理想数据集。本文中，作者基于该数据集进行了扩展，创建了更适合捕捉分割不确定性的随机裁剪变体，并在实验中取得了优异的性能。

The LIDC-IDRI Lung Lesion Dataset was developed by the Department of Applied Mathematics and Computer Science, Technical University of Denmark. It is a dataset containing 1018 3D chest CT images, which is widely used for medical image segmentation tasks. The dataset is provided in the form of 2D slices, and each slice has independent annotations from four experts, making it an ideal dataset for research on medical image segmentation uncertainty. In this paper, the authors extended this dataset and created random cropping variants that are more suitable for capturing segmentation uncertainty, achieving excellent performance in experiments.

提供机构：

丹麦技术大学，应用数学与计算机科学系

创建时间：

2025-04-08

搜集汇总

数据集介绍

构建方式

LIDC-IDRI lung lesion dataset 是通过对1018例胸部CT图像进行三维重建后，提取二维切片构建而成。原始数据以128×128分辨率围绕病灶中心裁剪，最终形成15096张二维图像。数据集采用按患者分组的60-20-20划分策略，其独特之处在于每例病灶都包含4位专家的独立标注，为医学图像分割中的不确定性建模提供了理想条件。为增强数据集的挑战性，研究者还开发了随机裁剪64×64子图像的变体版本。

特点

该数据集的核心价值在于其多专家标注系统，能有效捕捉医学图像分割中固有的标注差异性。通过四位放射科专家的独立标注，完整呈现了临床实践中病灶勾画的主观性和不确定性。数据集提供两种裁剪方式：中心裁剪保留了明确的病灶结构，主要考察阴性预测能力；随机裁剪则引入空间不确定性，更真实模拟临床场景。评估指标采用兼顾区域重叠度的Dice系数和IoU，以及专门衡量分布匹配的广义能量距离(GED)。

使用方法

使用该数据集时，建议采用基于扩散模型的现代分割框架。研究证明，采用余弦噪声调度配合0.1的输入缩放系数，结合截断SNR损失加权和x-prediction策略可获得最优性能。对于128×128中心裁剪数据，推荐使用10步DDIM采样器；64×64随机裁剪数据则适用10步DDPM采样器。评估时应同时考虑传统分割指标和不确定性度量，特别注意GED对分布匹配的敏感性。数据集的随机裁剪版本更适合验证模型在真实临床不确定性下的鲁棒性。

背景与挑战

背景概述

LIDC-IDRI肺病灶数据集是医学影像分析领域的重要基准数据集，由美国国家癌症研究所支持的国际肺影像数据库联盟于2001年创建。该数据集包含1018例胸部CT扫描的3D影像，后经预处理形成15096张128×128的2D切片，每例病灶均配有四位放射科专家的独立标注。数据集独特的多人标注特性使其成为研究医学图像分割不确定性的理想平台，对推动计算机辅助诊断系统的发展具有里程碑意义。丹麦技术大学计算机科学与应用数学系的研究团队近期基于该数据集，利用扩散模型在病灶分割不确定性建模方面取得了突破性进展。

当前挑战

该数据集面临的核心挑战体现在两个方面：在领域问题层面，医学图像分割存在固有的专家标注变异性，传统方法难以完整捕捉标注间的概率分布及像素级协方差关系；在构建过程层面，中央裁剪方式导致病灶定位线索过于明显，削弱了模型对真实临床场景中位置不确定性的建模能力。研究团队为此设计了随机裁剪变体数据集，但随之带来病灶形态学特征破碎的新挑战，要求模型具备更强的上下文推理能力。此外，扩散模型在推理阶段需要多次前向传播的计算开销，也制约了其在实时诊疗系统中的应用。

常用场景

经典使用场景

LIDC-IDRI肺结节数据集在医学图像分析领域被广泛用于研究肺部病变的自动分割技术。该数据集因其包含多位专家标注的肺部CT图像切片，成为评估算法在不确定性分割任务中性能的黄金标准。研究者通常利用该数据集开发能够模拟专家标注差异的生成模型，以捕捉医学图像分割中固有的模糊性。

解决学术问题

该数据集有效解决了医学图像分割中的关键科学问题：如何量化并建模专家标注的不确定性。通过提供四位放射科医生对同一病变的独立标注，它使研究者能够开发概率生成模型（如扩散模型和概率U-Net），这些模型不仅能预测单一分割结果，还能生成符合专家标注分布的多组可能分割。这种能力显著提升了计算机辅助诊断系统对临床不确定性的适应能力。

衍生相关工作

该数据集催生了多个里程碑式的工作：Phi-Seg首次将层次化变分自编码器引入医学图像不确定性分割；概率U-Net系列通过潜在空间建模实现了高质量概率分割；最新的扩散模型应用（如本文工作）则通过创新噪声调度和预测类型，在广义能量距离指标上实现了3.2%的性能提升。这些衍生研究共同推动了生成式医学图像分析领域的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集