CTSpine1K
收藏Hugging Face2025-05-25 更新2025-05-26 收录
下载链接:
https://huggingface.co/datasets/alexanderdann/CTSpine1K
下载链接
链接失效反馈官方服务:
资源简介:
CTSpine1K 是一个大规模的脊柱CT标注数据集,用于脊柱椎骨分割研究。该数据集包含 1,005 个专家标注的 CT 卷,超过 11,100 个在不同脊柱状况下标注的椎骨,以及多个病理病例。它支持基于 2D 切片的和 3D 体积的分析,并且可以以原始 NIfTI 格式和 Apache Arrow 格式提供,以便于高效的数据加载和处理。数据集由四个已建立的医学影像数据集组成,以确保多样性和临床相关性,并且包含全面的椎骨标注,覆盖整个脊柱。它是在知识共享署名-非商业性使用-相同方式共享 (CC-BY-NC-SA) 许可下发布的。
CTSpine1K is a large-scale annotated spinal CT dataset designed for spinal vertebrae segmentation research. This dataset comprises 1,005 expert-annotated CT volumes, over 11,100 vertebrae annotated under various spinal conditions, as well as multiple pathological cases. It supports both 2D slice-based and 3D volume-based analyses, and is available in raw NIfTI and Apache Arrow formats to enable efficient data loading and processing. The dataset is constructed from four established medical imaging datasets to ensure diversity and clinical relevance, and features comprehensive vertebrae annotations covering the entire spinal column. It is released under the Creative Commons Attribution-NonCommercial-ShareAlike (CC-BY-NC-SA) license.
创建时间:
2025-05-21
原始信息汇总
CTSpine1K 数据集概述
基本描述
- 名称: CTSpine1K
- 类型: 医学影像数据集
- 领域: 脊柱CT图像分割
- 规模: 1,005个CT体积,超过11,100个标记椎骨
- 数据格式: NIfTI (.nii.gz)
- 总大小: 约150GB(原始格式),约1100GB(Arrow格式)
- 许可: CC-BY-NC-SA 4.0
关键特性
- 包含1,005个专家标注的CT体积
- 覆盖不同脊柱状况的多病理案例
- 标准化NIfTI格式
- 支持2D切片和3D体积分析
数据集统计
| 数据分割 | CT体积数量 | 描述 |
|---|---|---|
| 训练集 | 610 | 模型开发 |
| 验证集 | 197 | 超参数调优 |
| 测试集 | 198 | 最终评估 |
| 总计 | 1,005 | 完整数据集 |
技术规格
- 图像格式: NIfTI (.nii.gz)
- 空间维度: 512×512像素
- 轴向切片: 每CT体积100-512片不等
- 标注格式: 带有椎体特定标签的密集分割掩码
数据来源
- CT COLONOGRAPHY
- HNSCC-3DCT-RT
- Medical Segmentation Decathlon (Task 3)
- COVID-19 CT Dataset
特殊病例
- 骶椎腰化: 24例
- 腰椎骶化: 13例
- 病理变异: 所有可见椎体均有标注
使用模式
- 3D体积模式: 完整CT体积和分割掩码
- 2D切片模式: 单个轴向切片
引用信息
bibtex @misc{deng2024ctspine1klargescaledatasetspinal, title={CTSpine1K: A Large-Scale Dataset for Spinal Vertebrae Segmentation in Computed Tomography}, author={Yang Deng and Ce Wang and Yuan Hui and Qian Li and Jun Li and Shiwei Luo and Mengke Sun and Quan Quan and Shuxin Yang and You Hao and Pengbo Liu and Honghu Xiao and Chunpeng Zhao and Xinbao Wu and S. Kevin Zhou}, year={2024}, eprint={2105.14711}, archivePrefix={arXiv}, primaryClass={eess.IV}, url={https://arxiv.org/abs/2105.14711}, }
相关资源
- 论文: https://arxiv.org/abs/2105.14711
- 数据集: https://huggingface.co/datasets/alexanderdann/CTSpine1K
- 原始仓库: https://github.com/MIRACLE-Center/CTSpine1K
搜集汇总
数据集介绍

构建方式
在医学影像分析领域,高质量标注数据的稀缺性制约着深度学习模型的性能提升。CTSpine1K数据集通过整合四个权威医学影像资源构建而成,包括CT结肠造影、头颈癌放疗CT、医学分割十项全能任务三以及COVID-19胸部CT数据。专家团队对1005个CT容积数据进行了精细标注,涵盖超过11100个椎体结构,并特别标注了37例骶椎腰化和腰椎骶化等病理变异案例。所有数据均转换为标准NIfTI格式,确保与主流医学影像处理流程的兼容性。
特点
该数据集最显著的特征在于其临床多样性与技术完备性。从解剖学视角观察,数据覆盖了腹部、胸部及头颈区域,包含健康人群与多种疾病患者的脊柱影像。技术层面提供512×512像素的高分辨率三维容积数据,支持二维切片和三维容积两种分析模式。数据集按610:197:198的比例划分为训练、验证和测试集,并采用独特的椎体特异性标注方案,为模型泛化能力验证提供了坚实基础。
使用方法
研究者可通过两种技术路径调用该数据集:原始NIfTI格式适用于已有医学影像处理流程的用户,可通过HuggingFace Hub直接下载文件;而Arrow格式则利用列式存储优化数据读取效率,特别适合与PyTorch或TensorFlow框架集成。加载时通过指定'2d'或'3d'参数即可切换分析维度,其中三维模式完整保留空间上下文信息,二维模式则显著降低内存消耗。数据集内置的智能缓存机制能有效加速重复实验过程,而分批次加载策略可规避大容量数据的内存瓶颈问题。
背景与挑战
背景概述
在医学影像分析领域,脊柱椎体分割是计算机断层扫描(CT)图像处理中的关键技术,对于脊柱疾病的诊断、手术规划和治疗效果评估具有重要价值。CTSpine1K数据集由MIRACLE中心的研究团队于2024年正式发布,旨在解决深度学习模型在脊柱影像分析中面临的数据稀缺问题。该数据集汇集了来自结肠镜检查、头颈癌放疗、肝脏分割和COVID-19研究等四大公共数据源的1005例CT扫描,涵盖了超过11100个标注椎体,包括骶椎腰化和腰椎骶化等病理变异案例。通过多中心数据的整合,CTSpine1K为三维脊柱解剖结构的分割研究提供了规模最大、多样性最丰富的基准数据,显著推动了自动化脊柱分析算法的发展。
当前挑战
脊柱椎体分割任务面临诸多挑战:椎体形态的高度个体差异、相邻椎体间的灰度相似性、病理变异导致的解剖结构异常,以及CT图像中常见的金属植入物伪影等问题,均对分割精度构成严峻考验。在数据集构建过程中,研究人员需克服多中心数据异构性带来的标注标准统一难题,包括不同扫描协议的空间分辨率差异、造影剂使用导致的对比度变化,以及专家标注一致性的保障。此外,原始数据规模达150GB的存储管理与高效读取需求,促使团队开发了支持二维切片和三维体积双模式加载的标准化流程,但Arrow格式转换带来的存储膨胀效应仍是实际应用中的瓶颈。
常用场景
经典使用场景
在医学影像分析领域,CTSpine1K数据集为脊柱椎骨分割任务提供了大规模标注资源。该数据集包含1005个CT扫描样本和超过11100个标注椎骨,支持从二维切片到三维体素的多尺度分析。研究人员通常利用其丰富的病理变异样本,如骶椎腰化和腰椎骶化案例,开发能够适应临床复杂性的分割算法。数据集的标准NIfTI格式确保了与现有医学图像处理流程的无缝集成,为深度学习模型提供了可靠的训练和评估基准。
实际应用
该数据集在临床辅助诊断系统中具有重要价值,能够支持脊柱侧弯评估、椎体骨折检测和手术规划等实际场景。通过自动化椎骨分割,可显著提升放射科医生测量椎体高度、计算Cobb角等工作的效率。在骨科手术导航中,基于该数据训练的模型能实时识别椎骨结构,为椎弓根螺钉植入提供空间参考。此外,其多中心数据特性确保了模型在不同扫描设备和协议下的泛化能力,为跨机构医疗AI应用提供了技术支撑。
衍生相关工作
基于CTSpine1K的经典研究包括多模态脊柱分析框架和半监督学习方法的探索。例如,一些工作将椎骨分割与疾病分类任务结合,开发出端到端的脊柱病理诊断系统。另有研究利用该数据集的丰富标注,设计了针对稀有病理案例的数据增强策略,显著提升了模型对解剖变异的识别能力。在技术层面,衍生工作涵盖了从U-Net变体到视觉Transformer的架构创新,以及针对医学影像特点设计的损失函数优化,持续推动着脊柱计算解剖学的发展。
以上内容由遇见数据集搜集并总结生成



