five

CADS-dataset

收藏
Hugging Face2025-12-18 更新2025-12-19 收录
下载链接:
https://huggingface.co/datasets/huggingface/CADS-dataset
下载链接
链接失效反馈
官方服务:
资源简介:
CADS是一个全面的解剖学数据集,专注于计算机断层扫描(CT)中的全身解剖分割。该数据集包含22,022个CT扫描体积,涵盖167个解剖结构的完整注释,是目前规模最大的全身CT数据集,在扫描数量和覆盖的解剖目标上均超过现有数据集。数据来源于公开数据集和私人医院数据,覆盖了100多个影像中心的16个国家,包含了多样化的临床变异、成像协议和病理状况。数据集通过自动化的伪标记和无监督质量控制流程构建。

CADS is a comprehensive anatomical dataset focused on whole-body anatomical segmentation in computed tomography (CT) scans. This dataset contains 22,022 CT scan volumes with complete annotations for 167 anatomical structures, making it the largest whole-body CT dataset to date, surpassing existing datasets in both the number of scans and the covered anatomical targets. The data is sourced from public datasets and private hospital data, covering over 100 imaging centers across 16 countries, and includes diverse clinical variations, imaging protocols, and pathological conditions. The dataset is constructed through automated pseudo-labeling and unsupervised quality control workflows.
提供机构:
Hugging Face
创建时间:
2025-12-18
原始信息汇总

CADS数据集概述

数据集基本信息

  • 数据集名称:CADS (Comprehensive Anatomical Dataset and Segmentation for Whole-Body Anatomy in Computed Tomography)
  • 主要任务:图像分割
  • 任务类别:image-segmentation
  • 数据模态:医学CT图像
  • 图像维度:3D
  • 覆盖范围:全身(从头到膝盖区域)
  • 数据规模:10K < n < 100K
  • 许可协议:cadsdataset (其他)
  • 许可协议链接:https://github.com/murong-xu/CADS

数据集核心内容

CADS是一个用于在计算机断层扫描(CT)中分割167个解剖结构的稳健、全自动框架。该框架包含两个主要组件,本仓库托管的是CADS-dataset

CADS-dataset

  • 包含22,022个CT体积,具有167个解剖结构的完整注释。
  • 是目前最广泛的全身CT数据集,在规模(比现有集合多18倍CT扫描)和解剖覆盖范围(多60%的不同目标)上均超过当前数据集。
  • 数据收集自公开可用数据集和私人医院数据,涵盖16个国家100多个成像中心。
  • 覆盖了临床变异性、协议和病理状况的多样性。
  • 通过具有伪标记和无监督质量控制的自动化流程构建。

数据格式与结构

  • 所有图像和分割结果均以NIfTI格式提供,按数据源组织。

  • 目录结构为:

    root/ ├── dataset_name/ │ ├── images/ # 原始CT体积 │ ├── segmentations/ # 分割掩码(索引参见模型标签映射) │ └── README.md # 数据集许可、引用和详细信息

数据集配置与来源

CADS-dataset包含多个公开可用和私人来源的数据集,每个数据集均在其自己的许可下发布。共包含43个配置(数据子集),具体如下:

配置名称 数据集名称 许可协议 CT体积数量
0001_visceral_gc VISCERAL Gold Corpus Customized license 40
0002_visceral_sc VISCERAL Silver Corpus Customized license 127
0003_kits21 The Kidney and Kidney Tumor Segmentation Challenge (KiTS21) CC BY-NC-SA 4.0 300
0004_lits Liver Tumor Segmentation Benchmark (LiTS) CC BY-NC-SA 4.0 201
0005_bcv_abdomen MICCAI Multi-Atlas Labeling Beyond the Cranial Vault (Abdomen) CC BY 4.0 50
0006_bcv_cervix MICCAI Multi-Atlas Labeling Beyond the Cranial Vault (Cervix) CC BY 4.0 50
0007_chaos CHAOS – Combined (CT-MR) Healthy Abdominal Organ Segmentation Challenge (CT Subset) CC BY-NC-SA 4.0 40
0008_ctorg CT-ORG: Multiple Organ Segmentation in CT CC BY 3.0 140
0009_abdomenct1k AbdomenCT-1K CC BY 4.0 1062
0010_verse VerSe – Vertebrae Labelling and Segmentation Benchmark CC BY-SA 4.0 374
0011_exact EXACT09 – Extraction of Airways from CT Customized license 40
0012_cad_pe CAD-PE – Computer Aided Detection for Pulmonary Embolism Challenge CC BY 4.0 40
0013_ribfrac RibFrac Challenge Dataset CC BY-NC 4.0 660
0014_learn2reg Learn2Reg – Abdomen MR-CT (TCIA Subset) CC BY 3.0 and TCIA Data Usage Policy 16
0015_lndb LNDb – Lung Nodule Database CC BY-NC-ND 4.0 294
0016_lidc LIDC-IDRI – Lung Image Database Consortium and Image Database Resource Initiative CC BY 3.0 997
0017_lola11 LOLA11 (LObe and Lung Analysis 2011) Customized license 55
0018_sliver07 SLIVER07 (Segmentation of the Liver 2007) Customized license 30
0019_tcia_ct_lymph_nodes Lymph Node CT Dataset (NIH, TCIA) CC BY 3.0 174
0020_tcia_cptac_ccrcc CPTAC-CCRCC – Clear Cell Renal Cell Carcinoma CC BY 3.0 258
0021_tcia_cptac_luad CPTAC-LUAD – Clinical Proteomic Tumor Analysis Consortium Lung Adenocarcinoma Collection CC BY 3.0 133
0022_tcia_ct_images_covid19 CT Images in COVID-19 CC BY 4.0 121
0023_tcia_nsclc_radiomics NSCLC Radiogenomics CC BY 3.0 131
0024_pancreas_ct Pancreas-CT CC BY 3.0 80
0025_pancreatic_ct_cbct_seg Pancreatic CT-CBCT Segmentation CC BY 4.0 93
0026_rider_lung_ct RIDER Lung CT CC BY 4.0 59
0027_tcia_tcga_kich TCGA-KICH (Kidney Chromophobe) CC BY 3.0 17
0028_tcia_tcga_kirc TCGA-KIRC (Kidney Renal Clear Cell Carcinoma) CC BY 3.0 398
0029_tcia_tcga_kirp TCGA-KIRP (Kidney Renal Papillary Cell Carcinoma) CC BY 3.0 19
0030_tcia_tcga_lihc TCGA-LIHC (Liver Hepatocellular Carcinoma) CC BY 3.0 242
0032_stoic2021 STOIC (Study of Thoracic CT in COVID-19) CC BY-NC 4.0 2000
0033_tcia_nlst National Lung Screening Trial (NLST) CC BY 4.0 7172
0034_empire EMPIRE10 Challenge Customized license 60
0037_totalsegmentator TotalSegmentator CC BY 4.0 1203
0038_amos AMOS (Multi-Modality Abdominal Multi-Organ Segmentation Challenge) CC BY 4.0 200
0039_han_seg HaN-Seg: The head and neck organ-at-risk CT & MR segmentation dataset CC BY-NC-ND 4.0 42
0040_saros SAROS: A dataset for whole-body region and organ segmentation in CT imaging Mix of CC BY 3.0, CC BY 4.0, and CC BY-NC 3.0 900
0041_ctrate CT-RATE CC BY-NC-SA 4.0 3134
0042_new_brainct_1mm (Newly Released) BrainCT-1mm CC BY 4.0 484
0043_new_ct_tri (Newly Released) CT-TRI (Triphasic Contrast-Enhanced Abdominal CTs) CC BY-NC-SA 4.0 586

重要说明

  • 除在本项目中新发布的BrainCT-1mm和CT-TRI数据集外,并非CT图像的原始所有者
  • 用户在使用数据前应查看每个数据集子目录中的相应README.md文件,并根据预期用途决定是否包含或排除该数据集。
  • 更新(2025-10-04):修复了数据集0010_verse0041_ctrate0043_new_ct_tri中缺失的图像并校正了仿射/强度错误。

相关资源

  • CADS论文预印本:https://arxiv.org/abs/2507.22953
  • CADS-dataset:https://huggingface.co/datasets/mrmrx/CADS-dataset
  • CADS-model权重:https://github.com/murong-xu/CADS/releases/tag/cads-model_v1.0.0
  • CADS-model代码库:https://github.com/murong-xu/CADS
  • CADS-model 3D Slicer插件:https://github.com/murong-xu/SlicerCADSWholeBodyCTSeg

引用

如果使用CADS的任何组件(CADS-dataset、其策划的分割掩码、预训练的CADS-model或3D Slicer扩展),请引用: bibtex @article{xu2025cads, title={CADS: A Comprehensive Anatomical Dataset and Segmentation for Whole-Body Anatomy in Computed Tomography}, author={Xu, Murong and Amiranashvili, Tamaz and Navarro, Fernando and Fritsak, Maksym and Hamamci, Ibrahim Ethem and Shit, Suprosanna and Wittmann, Bastian and Er, Sezgin and Christ, Sebastian M. and de la Rosa, Ezequiel and Deseoe, Julian and Graf, Robert and Möller, Hendrik and Sekuboyina, Anjany and Peeken, Jan C. and Becker, Sven and Baldini, Giulia and Haubold, Johannes and Nensa, Felix and Hosch, René and Mirajkar, Nikhil and Khalid, Saad and Zachow, Stefan and Weber, Marc-André and Langs, Georg and Wasserthal, Jakob and Ozdemir, Mehmet Kemal and Fedorov, Andrey and Kikinis, Ron and Tanadini-Lang, Stephanie and Kirschke, Jan S. and Combs, Stephanie E. and Menze, Bjoern}, journal={arXiv preprint arXiv:2507.22953}, year={2025} }

搜集汇总
数据集介绍
main_image_url
构建方式
在医学影像分析领域,构建大规模、高质量的数据集对于推动算法发展至关重要。CADS-dataset通过整合来自全球100多个影像中心的公开数据集与私有医院数据,采用自动化流水线进行构建。该流程融合了伪标签生成与无监督质量控制技术,系统性地汇集了超过22,000个CT体数据,并完成了涵盖从头至膝区域167个解剖结构的完整标注,从而形成了一个规模空前、覆盖广泛的全身体解剖数据集。
特点
作为目前规模最大的全身体CT分割数据集,CADS-dataset在数据量与解剖覆盖范围上均实现了显著突破。其包含的CT扫描数量是现有同类数据集的18倍以上,标注的独特解剖目标数量也增加了60%。数据集囊括了广泛的临床变异、多样的成像协议以及丰富的病理状况,体现了高度的多样性与代表性,为开发鲁棒性强的医学影像分析模型奠定了坚实基础。
使用方法
该数据集以NIfTI格式提供原始CT图像与对应的分割掩码,并按照数据源进行组织。用户可通过HuggingFace平台访问,每个子数据集均附有详细的许可说明与引用信息。在使用前,建议仔细阅读各子目录中的README文件,以明确数据的使用条款与限制。数据集适用于训练和评估全身体解剖分割模型,也可作为医学影像研究的标准基准,支持从算法开发到临床验证的全流程研究。
背景与挑战
背景概述
在医学影像分析领域,全身计算机断层扫描(CT)的自动解剖结构分割对于精准诊断、治疗规划及放射组学研究具有深远意义。CADS数据集由Murong Xu等研究人员于2025年构建,旨在解决现有数据集在规模与解剖覆盖范围上的局限性。该数据集整合了来自全球100多个影像中心的公开及私有数据,包含22,022个CT体积,涵盖从头至膝区域的167个解剖结构,是目前规模最大、标注最全面的全身CT分割数据集。其核心研究问题聚焦于通过自动化框架实现跨解剖系统、跨临床场景的高精度分割,为推进医学影像人工智能模型的泛化能力与临床适用性奠定了坚实基础。
当前挑战
CADS数据集致力于解决全身CT影像中多器官、多结构分割的复杂性问题,其挑战主要体现在解剖结构的多样性与形态变异、病理条件下的影像特征干扰以及不同扫描协议导致的图像异质性。在构建过程中,研究人员面临数据整合与标注的巨大挑战:需协调来自40余个子数据集、遵循16种不同许可协议的数据源,确保法律与伦理合规性;同时,通过自动化伪标注与无监督质量控制流程处理海量影像,保证跨中心、跨设备数据标注的一致性与准确性,并克服原始数据在分辨率、对比度及噪声水平上的显著差异,以实现高质量、可泛化的分割标签生成。
常用场景
经典使用场景
在医学影像分析领域,CADS数据集为全身计算机断层扫描(CT)的解剖结构分割提供了前所未有的基准。该数据集整合了超过两万例CT影像,涵盖从头至膝的167个解剖结构,其规模与覆盖范围远超现有同类资源。研究者通常利用该数据集训练和验证深度学习模型,以自动化、高精度地识别和勾画全身器官、骨骼及软组织,为后续的定量分析与可视化奠定基础。
实际应用
在临床实践与健康管理中,CADS数据集支撑的自动化分割工具可直接应用于放射科工作流。例如,在肿瘤放疗规划中,模型可快速勾画靶区与危及器官;在疾病筛查与随访中,能量化器官体积变化与病灶进展。其衍生的3D Slicer插件进一步降低了技术门槛,使临床医生无需深厚编程背景即可进行一键式全身结构分析,提升了诊断效率与一致性。
衍生相关工作
围绕CADS数据集,已衍生出一系列经典研究工作与开源工具。其核心框架CADS-model提供了预训练的分割模型套件,并在多项国际挑战赛上验证了性能。基于该数据集的算法研究进一步推动了多模态融合、弱监督学习及跨域适应等前沿方向。同时,社区中涌现的各类扩展工具与插件,持续丰富着全身CT分析的技术生态,促进了学术成果向临床应用的转化。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作