HemSeg-200

Name: HemSeg-200
Creator: 北京工业大学软件工程学院
Published: 2024-05-23 21:38:34
License: 暂无描述

arXiv2024-05-23 更新2024-06-21 收录

下载链接：

https://github.com/songchangwei/3DCT-SD-IVH-ICH

下载链接

链接失效反馈

官方服务：

资源简介：

HemSeg-200是由北京工业大学软件工程学院创建的数据集，包含222个脑部CT扫描的体素级注释，用于脑内出血的分割研究。数据集来源于RSNA 2019脑部CT出血挑战赛，经过精细的体素级注释，用于精确分割脑内和脑室内出血。该数据集支持了七种先进的医学图像分割算法的训练和评估，显著提高了这些严重出血的诊断和管理。数据集和代码公开可用，为深度学习模型的发展提供了宝贵的资源。

HemSeg-200 is a dataset developed by the School of Software Engineering, Beijing University of Technology. It comprises 222 voxel-level annotated brain CT scans for intracerebral and intraventricular hemorrhage segmentation research. Derived from the RSNA 2019 Brain CT Hemorrhage Challenge, the dataset underwent meticulous voxel-level annotation to enable precise segmentation of intracerebral and intraventricular hemorrhage. It has supported the training and evaluation of seven state-of-the-art medical image segmentation algorithms, significantly improving the diagnosis and clinical management of these severe hemorrhages. The dataset and its associated code are publicly available, serving as a valuable resource for the development of deep learning models.

提供机构：

北京工业大学软件工程学院

创建时间：

2024-05-23

搜集汇总

数据集介绍

构建方式

在脑出血影像分析领域，高质量标注数据的稀缺制约了深度学习模型的定量研究进展。HemSeg-200数据集的构建采用了半自动化的从粗到精标注流程，以应对三维CT数据像素级标注的繁重挑战。该数据集源自RSNA 2019脑CT出血挑战赛的公开数据，研究者首先利用基于nnU-Net框架开发的TotalSegmentator工具生成初步粗标注，随后由多名标注员在专家监督下进行人工细化与修正，最终所有标注均由具备神经肿瘤影像经验的认证神经放射科医师审核确认，确保了标注的准确性与可靠性。整个流程通过3D Slicer平台完成，有效平衡了标注效率与质量。

特点

该数据集专注于脑实质内出血和脑室内出血这两种临床关键亚型的体素级精细分割，共包含222例三维CT影像，其中IPH病例114例，IVH病例108例。所有影像均具有512×512的统一横截面分辨率，切片数量介于24至56层之间，空间分辨率与层厚在一定范围内变化，反映了临床影像的真实多样性。数据集的突出特点在于其标注的规模与质量，它是目前公开可用的最大规模脑出血分割标注数据集之一，且标注过程融合了自动化工具与严谨的人工审核，为模型训练提供了可靠的金标准。数据中同时存在新旧出血混合、多发出血共存等复杂情况，对算法的鲁棒性提出了更高要求。

使用方法

为促进脑出血定量分析研究，该数据集已公开并提供详细的使用指南。研究者通常需进行标准化的数据预处理，包括将DICOM格式转换为NIfTI格式、统一图像空间朝向（RAS坐标系）、重采样至各向同性分辨率以及强度值归一化等。在模型训练阶段，可采用滑动窗口策略提取图像块（如256×256×16）以处理全尺寸三维数据，并应用随机翻转等数据增强技术提升模型泛化能力。数据集的官方划分建议按3:1:1的比例分为训练集、验证集和测试集。研究团队已基于该数据集评估了包括3D U-Net、V-Net、nnU-Net在内的七种主流分割模型，其代码与配置已开源，为后续研究提供了可复现的基准。

背景与挑战

背景概述

在神经影像学领域，急性脑内出血作为一种危及生命的卒中类型，其早期精准诊断与量化评估对临床干预至关重要。2024年，由北京工业大学软件学院、天津医科大学肿瘤医院及法国索邦大学等机构的研究团队联合构建了HemSeg-200数据集，旨在填补脑出血定量分析中公开数据资源的空白。该数据集源自RSNA 2019脑CT出血挑战赛，包含222例经过体素级精细标注的脑CT扫描，专注于脑实质内出血与脑室内出血的精确分割。其创建不仅推动了深度学习算法在医学图像分割中的发展，更为临床医生制定治疗策略提供了可靠的量化依据，对提升脑出血诊疗的自动化与精准化具有显著影响力。

当前挑战

HemSeg-200数据集致力于解决脑出血病灶的精确分割问题，其核心挑战在于脑出血区域形态多变、边界模糊，且常与周围组织对比度低，导致传统分割方法难以实现高精度量化。在构建过程中，研究团队面临标注工作极度耗时耗力的难题：三维CT数据的体素级标注需要专业医学知识，而现有公开数据如PhysioNet和INSTANCE22样本量有限。为此，团队采用从粗到精的半自动化标注流程，结合TotalSegmentator工具生成初始标注，并由多名标注员在神经放射学专家监督下反复修正，以确保标注质量与一致性，这一过程凸显了医学图像数据标注中效率与精度平衡的持续挑战。

常用场景

经典使用场景

在神经影像分析领域，脑出血的精确量化是临床决策的关键环节。HemSeg-200数据集通过提供222例高质量体素级标注的脑CT扫描，为深度学习模型在脑实质内出血和脑室内出血的自动分割任务上建立了标准化的评估基准。该数据集最经典的应用场景在于训练和验证三维医学图像分割算法，特别是用于对比不同网络架构在复杂出血形态识别上的性能差异，为算法优化提供了可靠的实验平台。

解决学术问题

该数据集有效解决了脑出血研究中定量分析数据匮乏的核心难题。既往公开数据集如PhysioNet和INSTANCE22样本量有限，且缺乏精细的体素级标注，制约了分割算法的深度开发。HemSeg-200通过半自动标注流程生成了目前规模最大的公开分割数据集，使得研究者能够系统评估nnU-Net、3D U-Net、V-Net等前沿模型的分割精度，推动了从定性分类到定量分割的学术范式转变，为出血体积计算、形态学分析等精细化研究奠定了数据基础。

衍生相关工作

该数据集的发布催生了一系列围绕脑出血分割的算法比较与改进研究。论文中系统评估了七种主流三维分割模型，确立了nnU-Net在该任务上的优越性，这为后续研究提供了性能基线。相关工作可在此基础上探索更高效的Transformer与CNN混合架构、针对出血边缘模糊特性的损失函数设计，以及利用该数据集进行半监督或弱监督学习以缓解标注成本问题，持续推动脑出血自动分割技术向更高精度和更强泛化能力发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集