five

SAROS

收藏
github2024-04-26 更新2024-05-31 收录
下载链接:
https://github.com/UMEssen/saros-dataset
下载链接
链接失效反馈
官方服务:
资源简介:
SAROS是一个大型、异质性且稀疏标注的分割数据集,专注于CT影像数据。

SAROS is a large-scale, heterogeneous, and sparsely annotated segmentation dataset, focusing on CT imaging data.
创建时间:
2023-06-01
原始信息汇总

数据集概述

数据集名称

  • SAROS - A large, heterogeneous, and sparsely annotated segmentation dataset on CT imaging data

数据集内容

  • CT图像数据及其分割信息
  • 包含多个病例,每个病例包含图像和分割数据

数据集下载

  1. 安装包管理器poetry
  2. 克隆仓库:git clone https://github.com/UMEssen/saros-dataset
  3. 安装依赖:poetry install --no-dev
  4. TCIA下载NIfTI分割数据
  5. 运行下载脚本:poetry run python3 download.py

数据集存储

  • 默认存储目录为data,可通过--target-dir参数更改
  • 分割信息CSV文件可通过--info-csv参数指定位置

特殊注意事项

  • 部分CT病例(case_609, case_623, case_816)具有异常的CT值(如-3000 HU),使用时需注意

数据集使用示例

  • 提供了使用nnUNet模型进行训练和评估的示例
  • 需要将数据转换为nnUNet格式后进行训练和评估

引用信息

  • 使用此数据集时,请引用:

    Koitka, S., Baldini, G., Kroll, L., van Landeghem, N., Haubold, J., Sung Kim, M., Kleesiek, J., Nensa, F., & Hosch, R. (2023). SAROS - A large, heterogeneous, and sparsely annotated segmentation dataset on CT imaging data (SAROS) (Version 1) [Data set]. The Cancer Imaging Archive. https://doi.org/10.25737/SZ96-ZG60

    Clark, K., Vendt, B., Smith, K., Freymann, J., Kirby, J., Koppel, P., Moore, S., Phillips, S., Maffitt, D., Pringle, M., Tarbox, L., & Prior, F. (2013). The Cancer Imaging Archive (TCIA): Maintaining and Operating a Public Information Repository. In Journal of Digital Imaging (Vol. 26, Issue 6, pp. 1045–1057). Springer Science and Business Media LLC. https://doi.org/10.1007/s10278-013-9622-7

搜集汇总
数据集介绍
main_image_url
构建方式
SAROS数据集的构建基于从The Cancer Imaging Archive (TCIA)下载的NIfTI格式分割数据,并结合了Segmentation Information Spreadsheet进行信息整合。数据集通过poetry包管理器进行依赖管理,并使用download.py脚本进行自动化下载和处理。下载的CT图像和分割数据被默认重采样至5mm厚度,以确保数据的一致性和可用性。此外,数据集还包含了一些特定的命令行参数,如--target-dir用于指定存储目录,--info-csv用于指定信息CSV文件路径,以及--save-original-image等选项,以满足不同用户的需求。
特点
SAROS数据集的主要特点在于其大规模、异质性和稀疏注释的特性。该数据集涵盖了多种癌症图像数据,包括头部和颈部区域的CT图像,具有较高的临床应用价值。数据集中的图像和分割数据经过标准化处理,确保了数据的质量和一致性。此外,数据集还包含了一些异常值(如`case_609`、`case_623`、`case_816`),这些异常值为模型训练提供了额外的挑战,有助于提升模型的鲁棒性。
使用方法
使用SAROS数据集时,用户首先需要通过poetry安装依赖,并使用download.py脚本下载和处理数据。下载完成后,数据集可以用于训练和评估2D nnUNet模型。具体操作包括使用move_data.py脚本将数据转换为nnUNet格式,然后通过提供的训练脚本(如train_parts.sh和train_regions.sh)进行模型训练。训练完成后,用户可以使用predict_evaluate_parts.sh和predict_evaluate_regions.sh脚本进行预测和模型评估。此外,数据集还支持并行下载和保存原始图像等功能,以满足不同研究需求。
背景与挑战
背景概述
SAROS数据集由德国UM Essen大学的主要研究人员于2023年创建,旨在为计算机断层扫描(CT)图像的分割任务提供一个大规模、异质且稀疏标注的数据集。该数据集的核心研究问题集中在如何有效处理和利用稀疏标注的CT图像数据,以推动医学图像分析领域的发展。SAROS数据集的发布不仅为研究人员提供了一个宝贵的资源,还为医学图像分割算法的开发和验证提供了新的基准。通过与The Cancer Imaging Archive (TCIA)合作,SAROS数据集整合了多种癌症相关的CT图像数据,进一步增强了其在医学影像研究中的影响力。
当前挑战
SAROS数据集在构建过程中面临了多项挑战。首先,数据集的异质性使得数据预处理和标注的一致性成为难题,尤其是不同来源的CT图像在分辨率和成像条件上的差异。其次,稀疏标注的特性要求研究人员开发新的算法来有效利用这些不完全标注的数据,这为现有的图像分割技术带来了新的挑战。此外,数据集中的部分图像存在异常的CT值(如-3000 HU),这为模型的训练和评估增加了复杂性。最后,数据集的下载和使用涉及多个步骤和工具,用户需要具备一定的技术背景,这也增加了数据集的访问门槛。
常用场景
经典使用场景
SAROS数据集在医学影像分析领域中,主要用于计算机断层扫描(CT)图像的分割任务。其经典使用场景包括对头部和颈部区域的肿瘤进行精确分割,以及对不同身体部位的边界进行识别。通过提供高分辨率的CT图像和相应的分割标注,该数据集为研究人员提供了丰富的训练和测试资源,特别适用于开发和验证基于深度学习的分割算法。
解决学术问题
SAROS数据集解决了医学影像分析中长期存在的分割精度不足的问题。通过提供大规模、异质且稀疏标注的CT图像数据,该数据集为研究人员提供了丰富的训练和测试资源,有助于提升分割算法的鲁棒性和准确性。此外,该数据集还为多模态影像分析提供了基础,推动了跨学科研究的发展,特别是在肿瘤学和放射学领域。
衍生相关工作
基于SAROS数据集,许多经典工作得以展开,包括但不限于基于深度学习的分割算法优化、多模态影像融合技术以及自动化诊断系统的开发。例如,研究人员利用该数据集训练了高效的nnUNet模型,显著提升了分割精度。此外,该数据集还为跨学科研究提供了基础,推动了肿瘤学、放射学和计算机视觉领域的协同创新。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作