CT_DeepLesion-MedSAM2

Hugging Face2025-04-07 更新2025-04-08 收录

下载链接：

https://huggingface.co/datasets/wanglab/CT_DeepLesion-MedSAM2

下载链接

链接失效反馈

官方服务：

资源简介：

CT_DeepLesion-MedSAM2数据集包含来自10594项研究的32735个不同病变的32120个CT切片，这些研究涉及4427名独特患者。每个病变在其关键切片上都有一个边界框注释，由最长直径和最长垂直直径导出。此外，使用MedSAM2在人类参与的工作流程中对5000个病变进行了注释。

The CT_DeepLesion-MedSAM2 dataset contains 32,120 CT slices from 10,594 studies involving 32,735 distinct lesions and 4,427 unique patients. Each lesion is annotated with a bounding box on its key slice, which is derived from its longest diameter and the longest perpendicular diameter. Additionally, 5,000 lesions were annotated using a human-in-the-loop workflow with MedSAM2.

创建时间：

2025-04-03

搜集汇总

数据集介绍

构建方式

在医学影像分析领域，精准的病灶标注对深度学习模型训练至关重要。CT_DeepLesion-MedSAM2数据集基于DeepLesion原始CT影像库，通过人机协同标注流程对5,000个病灶进行了精细化标注。研究团队采用MedSAM2智能标注系统，结合放射科医师的专业复核，在32,120张CT切片中筛选关键病灶切片，依据病灶最长径和垂直径生成边界框标注，最终构建出兼顾规模与质量的医学影像数据集。

特点

该数据集显著优势在于其多中心来源的多样性，涵盖4,427名患者的32,735个病灶实例，病变类型覆盖全身各器官系统。每个样本不仅包含原始CT影像数据，还附带经专业验证的边界框标注，为病灶检测任务提供可靠基准。数据集特别强化了3D医学影像的标注维度，通过MedSAM2算法实现了从二维切片到三维体积的标注扩展，为医学图像分割研究提供了更丰富的空间信息。

使用方法

研究者可通过HuggingFace平台便捷获取该数据集，使用标准datasets库即可完成加载与访问。典型工作流程包括安装依赖库、下载数据集、划分训练验证集等步骤。数据集已预处理好CT影像与对应标注的映射关系，用户可直接提取图像-标注对进行模型训练。为保障学术规范性，使用该数据时需同时引用DeepLesion原始论文和MedSAM2方法论文，相关引用格式已在文档中明确提供。

背景与挑战

背景概述

CT_DeepLesion-MedSAM2数据集是医学影像分析领域的重要资源，由多伦多大学健康网络AI协作中心、哈佛医学院生物医学信息学系以及多伦多大学计算机科学系等机构的联合研究团队于2025年构建。该数据集基于美国国立卫生研究院（NIH）发布的DeepLesion数据集，通过MedSAM2模型在人工参与流程中对5000个病灶进行了精细化标注。其核心研究问题聚焦于三维医学图像中通用病灶检测与分割，为深度学习模型在CT影像分析中的泛化能力提供了关键数据支持。该数据集的建立显著推动了跨模态医学图像分割技术的发展，并为肿瘤定量分析、疗效评估等临床研究提供了标准化基准。

当前挑战

在医学影像分析领域，CT_DeepLesion-MedSAM2数据集致力于解决多类别病灶的精确分割与三维重建难题。主要挑战包括病灶形态的高度异质性、CT图像中组织边界模糊导致的标注歧义，以及小尺寸病灶在切片间的连续性保持问题。数据构建过程中，研究团队面临原始标注粒度不足的局限，需通过半自动标注与人工校验相结合的方式提升标注质量。跨机构协作带来的数据标准化问题，以及不同扫描设备产生的图像分辨率差异，均为数据集的构建增加了技术复杂度。如何平衡标注精度与大规模数据处理效率，成为该数据集持续优化的关键瓶颈。

常用场景

经典使用场景

在医学影像分析领域，CT_DeepLesion-MedSAM2数据集为深度学习模型提供了丰富的CT扫描图像及其标注，特别是针对病灶检测和分割任务。该数据集包含了来自4,427名患者的32,735个病灶的标注，覆盖了多种病灶类型，为模型训练提供了多样化的样本。经典使用场景包括病灶检测算法的开发与评估，以及医学影像分割模型的训练与验证。

实际应用

在实际应用中，CT_DeepLesion-MedSAM2数据集被广泛用于开发智能诊断系统，辅助放射科医生进行病灶检测和分割。这些系统能够快速识别CT扫描中的病灶，减少人工标注的工作量，提高诊断效率。此外，该数据集还被用于医学影像分析软件的开发，帮助医生进行更精确的病灶定位和评估。

衍生相关工作

基于CT_DeepLesion-MedSAM2数据集，研究者们开发了多种先进的医学影像分析模型，如MedSAM2，该模型在3D医学图像分割任务中表现出色。此外，该数据集还催生了一系列相关研究，包括病灶检测算法的优化、多模态医学影像分析以及病灶生长预测模型的开发，推动了医学影像分析领域的快速发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集