SegRap23-Lite

Hugging Face2025-03-30 更新2025-03-31 收录

下载链接：

https://huggingface.co/datasets/YongchengYAO/SegRap23-Lite

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个SegRap23数据集的子集，包含120个对比增强CT和CT图像以及对应的分割掩模。该数据集专注于医学成像，并用于图像分割等任务。数据集遵循CC BY-NC 4.0许可发布。分割标签为两个任务提供，详细标明了不同解剖结构的标签。数据集可以从Huggingface仓库或使用原始数据下载脚本来下载。该数据集是SegRap23挑战的一部分，更多信息可以通过提供的链接找到，包括挑战网站、数据和相关论文。

This is a subset of the SegRap23 dataset, comprising 120 contrast-enhanced CT and CT images alongside their corresponding segmentation masks. Focused on medical imaging, this dataset is designed for tasks including image segmentation. It is released under the CC BY-NC 4.0 license. Segmentation labels are provided for two tasks, with explicit annotations for distinct anatomical structures. The dataset can be downloaded either from the Hugging Face repository or via its original data download script. As part of the SegRap23 challenge, additional information such as the challenge website, dataset resources and related academic papers can be accessed via the provided links.

创建时间：

2025-03-30

原始信息汇总

SegRap23-Lite 数据集概述

基本信息

许可证: CC BY-NC 4.0
任务类别: 图像分割
语言: 英文
标签: 医学、图像
数据集名称: segrap23-lite
规模: 小于1K样本

数据集简介

该数据集是SegRap23数据集的子集。
包含120张图像（对比CT和CT）和分割掩码（涵盖SegRap23挑战赛的任务1和任务2）。
图像和分割掩码未经修改。
文件根据病例ID重命名。

官方发布

数据许可证（官方）: N/A（如有许可问题，请联系作者）
挑战赛（官方）: SegRap23挑战赛
数据（官方）: SegRap23数据集
论文: DOI:10.1016/j.media.2024.103447

分割标签

任务1标签

python { "1": "brain", "2": "brainstem", "3": "optic chiasm", "4": "left temporal lobe", "5": "right temporal lobe", "6": "left overlap region of temporal lobe & hippocampus", "7": "right overlap region of temporal lobe & hippocampus", "8": "left hippocampus", "9": "right hippocampus", "10": "left eye", "11": "right eye", "12": "left lens", "13": "right lens", "14": "left optic nerve", "15": "right optic nerve", "16": "left middle ear", "17": "right middle ear", "18": "left internal auditory canal", "19": "right internal auditory canal", "20": "left overlap region of middle ear & tympanic cavity", "21": "right overlap region of middle ear & tympanic cavity", "22": "left tympanic cavity", "23": "right tympanic cavity", "24": "left overlap region of middle ear & vestibular semicircular canal", "25": "right overlap region of middle ear & vestibular semicircular canal", "26": "left vestibular semicircular canal", "27": "right vestibular semicircular canal", "28": "left cochlea", "29": "right cochlea", "30": "left overlap region of middle ear & eustachian tube bone", "31": "right overlap region of middle ear & eustachian tube bone", "32": "left eustachian tube bone", "33": "right eustachian tube bone", "34": "pituitary gland", "35": "oral cavity", "36": "left mandible", "37": "right mandible", "38": "left submandibular gland", "39": "right submandibular gland", "40": "left parotid gland", "41": "right parotid gland", "42": "left mastoid", "43": "right mastoid", "44": "left temporomandibular joint", "45": "right temporomandibular joint", "46": "spinal cord", "47": "esophagus", "48": "larynx", "49": "larynx glottic", "50": "larynx supraglottic", "51": "overlap region of larynx & pharynx constrictors", "52": "pharynx constrictor", "53": "thyroid", "54": "trachea" }

任务2标签

python { "1": "gross target volume of nasopharynx tumor", "2": "gross target volume of lymph node tumor" }

下载方式

从Huggingface下载

bash #!/bin/bash pip install huggingface-hub[cli] huggingface-cli login --token $HF_TOKEN

python

from huggingface_hub import snapshot_download snapshot_download(repo_id="YongchengYAO/SegRap23-Lite", repo_type=dataset, local_dir="/your/local/folder")

从原始数据下载

python python download_SegRap23.py -d <datasets_folder> -n SegRap23

搜集汇总

数据集介绍

构建方式

SegRap23-Lite数据集作为SegRap23挑战赛的精简子集，严格遵循医学影像数据标准构建。该子集包含120组经过专业标注的CT和对比增强CT图像，每幅图像均附带任务1和任务2的精细分割掩模。原始数据通过病例ID重新编号处理，确保数据可追溯性的同时完整保留了影像与标注的对应关系。数据采集过程严格遵守医学伦理规范，所有标注工作由专业团队在临床医师指导下完成。

使用方法

研究人员可通过Hugging Face Hub的CLI工具或Python接口便捷获取数据，需预先配置访问令牌。数据加载后建议使用专业医学影像库（如SimpleITK或NiBabel）进行解析。典型应用流程包括：影像预处理→分割网络训练→模型验证三个关键阶段。值得注意的是，由于采用CC BY-NC 4.0许可，该数据集特别适合非商业性质的学术研究，尤其在头颈部肿瘤自动分割算法的开发与验证方面具有独特价值。

背景与挑战

背景概述

SegRap23-Lite数据集是医学影像分割领域的重要资源，源自2023年SegRap挑战赛的官方数据集子集。该数据集由Yongcheng Yao等研究人员构建，旨在促进头颈部解剖结构与肿瘤区域的精细分割研究。数据集包含120组对比增强CT和普通CT图像，以及对应的分割标注，涵盖了54类头颈部解剖结构和2类肿瘤靶区。其标注体系体现了对颞叶、海马、中耳等复杂微小结构的精细划分，为医学影像分析提供了高精度的金标准参考。相关研究成果已发表于《Medical Image Analysis》期刊，对推动放射治疗规划智能化具有重要价值。

当前挑战

该数据集面临的领域挑战主要体现在头颈部复杂解剖结构的精确分割上，尤其是颞叶与海马的重叠区域、中耳与半规管的交错结构等微小组织的区分。数据构建过程中，标注工作面临医学影像灰度相似度高、器官边界模糊等技术难点，需要放射科专家进行多轮交叉验证。此外，数据集规模相对有限，对深度学习模型的泛化能力提出更高要求，需通过迁移学习等技术解决小样本学习问题。肿瘤靶区标注涉及临床医生主观判断差异，也增加了标注一致性的维护难度。

常用场景

经典使用场景

SegRap23-Lite数据集作为医学影像分割领域的重要资源，其经典使用场景主要集中在头颈部器官及肿瘤区域的精确分割。该数据集提供的120组对比增强CT和普通CT图像，配合精细标注的54类解剖结构和2类肿瘤靶区标签，为研究人员构建深度学习模型提供了标准化的训练与验证平台。在放射治疗规划系统中，这些高质量的分割结果可直接用于剂量计算和危及器官保护，显著提升了自动化分割流程的可靠性。

解决学术问题

该数据集有效解决了医学影像分析中的多器官联合分割难题，特别是针对头颈部复杂解剖结构的精细划分。通过提供双侧对称器官的重叠区域标注（如颞叶与海马体的重叠区），为研究解剖结构空间关系建立了新的基准。其包含的鼻咽癌和淋巴结肿瘤靶区标注，更是填补了肿瘤靶区自动分割研究的数据空白，推动了放射治疗中靶区勾画技术的标准化进程。

实际应用

在临床实践中，SegRap23-Lite数据集支撑着智能放疗系统的开发，其分割结果可直接集成到治疗计划软件中。医疗机构利用该数据集训练的模型，能够快速完成头颈部CT影像中54个关键器官的自动勾画，将传统手工勾勒所需的数小时缩短至分钟级。特别在鼻咽癌放疗领域，数据集提供的肿瘤靶区标注标准为临床靶区定义提供了重要参考依据。

数据集最近研究