stankubrick/SegRap23-Lite

Name: stankubrick/SegRap23-Lite
Creator: stankubrick
Published: 2026-05-02 08:11:15
License: 暂无描述

Hugging Face2026-05-02 更新2026-05-03 收录

下载链接：

https://hf-mirror.com/datasets/stankubrick/SegRap23-Lite

下载链接

链接失效反馈

官方服务：

资源简介：

这是[SegRap23数据集](https://segrap2023.grand-challenge.org/dataset/)的一个子集。包含120张图像（对比CT和CT）和分割掩码（用于[SegRap23挑战](https://segrap2023.grand-challenge.org)中的任务1和任务2）。未对任何图像或分割掩码进行更改。文件根据案例ID进行了重命名。该数据集发布在`CC BY-NC 4.0`许可证下。

This is a subset of the [SegRap23 dataset](https://segrap2023.grand-challenge.org/dataset/). - 120 images (for both contrast-CT and CT) and segmentation masks (for both tasks 1 and 2 in [SegRap23 challenge](https://segrap2023.grand-challenge.org)) - No change to any image or segmentation mask - Files are renamed according to case IDs This dataset is released under the `CC BY-NC 4.0` license.

提供机构：

stankubrick

搜集汇总

数据集介绍

构建方式

SegRap23-Lite数据集源自SegRap23挑战赛的官方数据，经过精心筛选，保留了120对增强CT与CT图像及其对应的分割掩膜。这些数据直接取自原始完整数据集，未对图像或分割掩膜进行任何修改，仅依据病例标识对文件进行了统一重命名，确保了数据的原始完整性与可追溯性。该数据集采用CC BY-NC 4.0许可协议发布，兼顾了学术研究的开放性与版权保护。

特点

该数据集聚焦于头颈部解剖结构及肿瘤区域的精细化分割，涵盖任务一中的54个结构标签，如脑干、视交叉、海马体、内耳及唾液腺等，以及任务二中的鼻咽癌和淋巴结肿瘤靶区。其丰富的标签体系为多器官、多类别分割研究提供了坚实的基础，尤其适用于放疗规划等临床场景。轻量化的样本规模（<1K）使其具备良好的易用性，便于快速验证与迭代。

使用方法

用户可通过Hugging Face Hub便捷地获取数据集。首先需安装huggingface-hub命令行工具并完成登录验证，随后利用Python的snapshot_download函数即可将数据完整下载至本地指定目录。此外，也可通过执行提供的download_SegRap23.py脚本，从原始数据源直接下载。推荐将数据集与深度学习框架（如PyTorch）配合使用，自定义数据加载器以适配具体的分割模型训练流程。

背景与挑战

背景概述

在放射治疗规划中，精确的器官与靶区分割是确保疗效和降低副作用的关键环节，尤其对于头颈部等复杂解剖区域更是如此。SegRap23-Lite数据集由研究者Yongcheng Yao于2023年整理发布，源自SegRap23挑战赛，旨在推动头颈部肿瘤放疗中危及器官及靶区的自动分割研究。该数据集精心挑选了120例对比增强CT与平扫CT图像，并提供了涵盖54个危及器官与2个肿瘤靶区的详细标注，为深度学习分割模型的训练与评估提供了高质量基准。其发布对医学影像分析领域产生了显著影响，促进了多器官分割算法在临床前研究中的验证与优化。

当前挑战

该数据集所面临的挑战首先体现在领域问题的复杂性上：头颈部解剖结构密集且个体差异显著，众多器官如颞叶、内耳、视交叉等体积小、边界模糊，加之肿瘤浸润常导致正常结构变形，使得精准分割极为困难。在构建过程中，挑战同样严峻：原始数据需经过多位临床专家的精细标注与一致性审核，以确保分割标签的医学准确性；同时，来自不同扫描仪与协议的CT图像存在强度与噪声差异，要求构建方统一预处理流程而避免引入偏差。此外，数据量有限（仅120例）给深度学习模型的泛化能力带来了严峻考验，尤其是对罕见结构或离群病例的分割表现更需谨慎评估。

常用场景

经典使用场景

SegRap23-Lite数据集作为头颈癌放疗规划领域的精化医学影像资源，最经典的用途在于推动多器官与肿瘤区域的精确分割研究。该数据集以120对对比增强CT与平扫CT影像为核心，涵盖54个危及器官（如脑干、视交叉、海马体、腮腺等）以及鼻咽癌原发灶和淋巴结转移灶的逐像素标注。研究团队通常将其作为基准，验证深度学习模型在头颈复杂解剖结构上的细粒度分割性能，例如结合UNet、Transformer或混合架构实现多类同时分割，从而提升放疗靶区勾画的客观性与可重复性。

解决学术问题

该数据集系统性地回应了头颈癌放疗中器官勾画耗时且主观性强这一长期学术难题。传统人工标注需依赖放射肿瘤学家对数十个精细结构的逐层勾勒，不仅劳动强度高，且存在显著观察者间差异。SegRap23-Lite通过提供高质量的多模态影像与层级化标签体系，使研究者得以训练自动分割模型替代人工作业，降低勾画变异度。其标签设计涵盖器官重叠区域（如颞叶与海马体共域），为处理边界模糊与解剖变异提供了规范化基准，推动了弱监督学习、域自适应与多任务分割等前沿方法论在医学图像分析中的实证探索。

衍生相关工作

SegRap23-Lite作为SegRap23竞赛的精简子集，衍生了一系列具有影响力的学术工作。挑战优胜方案涌现出多种创新网络架构，包括基于3D残差UNet的级联分割策略、融合空间注意力与通道注意力机制的混合模型，以及利用伪标签半监督学习缓解标注稀缺问题的方法。竞赛配套论文发表于《Medical Image Analysis》，详细阐述了多器官分割任务中的类别不平衡与边界优化技巧。后续研究者以此为基准开展域泛化实验，探索CT与MRI视角下的跨模态分割一致性，推动了可泛化医学影像模型的标准化演进。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集