UK Biobank Organs and Bones (UKBOB)
收藏arXiv2025-04-09 更新2025-04-11 收录
下载链接:
https://emmanuelleb985.github.io/ukbob
下载链接
链接失效反馈官方服务:
资源简介:
UKBOB是由牛津大学视觉几何组创建的一个大型医学影像分割数据集,包含了51761个MRI三维样本(17.9M个二维图像)和超过13.7亿个二维分割掩膜,涵盖72个器官。该数据集基于UK Biobank MRI数据集,采用自动化标注和专门的器官标签过滤机制来确保标签的高质量。UKBOB不仅规模宏大,而且在解剖多样性方面超过了现有的医学影像数据集,为训练健壮且可泛化的模型提供了前所未有的资源。
UKBOB is a large-scale medical image segmentation dataset developed by the Visual Geometry Group at the University of Oxford. It contains 51,761 3D MRI samples (equivalent to 17.9 million 2D images) and over 1.37 billion 2D segmentation masks, covering 72 organs. Built on the UK Biobank MRI dataset, UKBOB adopts automated annotation and specialized organ label filtering mechanisms to ensure high-quality labels. Boasting not only an unprecedented scale but also greater anatomical diversity than existing medical image datasets, UKBOB provides unparalleled resources for training robust and generalizable models.
提供机构:
牛津大学视觉几何组
创建时间:
2025-04-09
搜集汇总
数据集介绍

构建方式
UKBOB数据集基于英国生物银行(UK Biobank)的51,761例全身MRI扫描数据构建,通过自动化标注工具TotalVibe Segmentator生成72个器官的17.9百万张2D图像及13.7亿个分割掩码。为确保标注质量,研究团队设计了基于体积、球度和偏心率的器官特异性统计过滤器(SOLF),并辅以300例MRI扫描的手动标注验证集(UKBOB-manual)。这种结合自动化与人工校验的混合标注策略,在保证规模的同时实现了标注置信度的量化控制。
特点
作为当前规模最大的医学影像分割数据集,UKBOB的突出特点体现在三维数据的完备性(51,761例3D MRI)与解剖结构的多样性(覆盖72个器官)。其轴向、冠状面和矢状面多视角标注体系,以及包含骨密度、脂肪百分比等元数据的特性,为跨模态研究提供了独特价值。相比BRATS、BTCV等现有数据集,UKBOB在样本量(17.9M 2D图像)和器官类别数(72类)两个维度上均实现数量级突破,如图1统计所示。
使用方法
该数据集支持通过两种典型范式应用于3D医学图像分割:其一,直接利用其全量数据训练基础模型(如论文提出的Swin-BOB),在BRATS脑肿瘤分割等任务中实现SOTA性能(Dice提升0.4%);其二,通过零样本迁移验证标注质量,如在AMOS腹部MRI数据集上达到84%的平均Dice分数。研究人员建议配合提出的熵测试时适应(ETTA)方法,通过动态调整批归一化参数来优化域适应表现。数据集及预训练模型可通过UK Biobank官方渠道申请获取。
背景与挑战
背景概述
UK Biobank Organs and Bones (UKBOB) 数据集由牛津大学视觉几何组的研究团队于2025年发布,是目前规模最大的医学影像分割标注数据集。该数据集基于英国生物银行(UK Biobank)的MRI数据,包含51,761个3D MRI样本(约1790万张2D图像)和超过13.7亿个2D分割掩码,涵盖72个器官结构。UKBOB的创建旨在解决医学影像领域缺乏大规模标注数据的核心问题,其前所未有的规模和解剖多样性为训练鲁棒、可泛化的3D医学图像分割模型提供了重要资源。该数据集通过自动标注与创新性的标签质量控制机制,显著推动了计算机视觉与医学影像社区的算法研发,并在多个基准测试中实现了最先进的性能表现。
当前挑战
UKBOB数据集面临的主要挑战体现在两个维度:在领域问题层面,医学影像分割长期受限于标注数据稀缺、隐私保护严格和专家标注成本高昂等问题,导致模型泛化能力不足;在构建过程层面,海量数据的自动标注引入了标签噪声问题,研究人员需开发基于体积统计特征的专业器官标签过滤器(SOLF)来保证标注质量。此外,跨模态(如MRI与CT)和跨中心的域适应问题,以及全身体积数据中器官尺度差异大、边界模糊等特性,都给模型训练带来了显著挑战。为解决这些问题,团队提出了基于熵的测试时自适应方法(ETTA),有效提升了模型在噪声标签条件下的分割鲁棒性。
常用场景
经典使用场景
在医学影像分析领域,UKBOB数据集因其规模宏大和标注精细而成为3D器官分割研究的黄金标准。该数据集通过整合51,761例全身MRI扫描和17.9亿个2D分割掩模,为深度学习模型提供了前所未有的训练资源。其典型应用场景包括开发跨模态泛化的基础模型,如在Swin-UNetr架构上训练的Swin-BOB模型,该模型在BRATS脑肿瘤分割和BTCV腹部CT基准测试中分别实现了0.4%和1.3%的性能提升。数据集的多视角标注(矢状面、冠状面和轴向)特别适合研究器官的空间关系,为解剖结构的三维重建提供了理想数据支持。
解决学术问题
UKBOB有效解决了医学影像领域长期存在的三大挑战:首先,通过自动标注流水线结合SOLF(专业器官标签过滤器)统计清洗机制,突破了人工标注成本高昂的瓶颈;其次,其覆盖72个器官的全身体扫描数据弥补了现有数据集(如BRATS、BTCV)在解剖结构多样性上的不足;最后,提出的熵测试时自适应(ETTA)方法显著缓解了标签噪声问题,在BTCV数据集上使分割结果的Hausdorff距离降低了2.4个单位。这些创新使得该数据集成为首个能同时支持器官形态学研究和病理检测的大规模基准。
衍生相关工作
UKBOB的发布催生了多个里程碑式研究:牛津团队开发的TotalVibe Segmentator利用该数据实现了全身器官的零样本分割;衍生工作MedSegDiff-V2将扩散模型引入3D医学分割,在BTCV基准上达到89.5%的Dice分数。数据集还支持了跨模态研究,如Emmanuelle Bourigault等人基于此开发的X-Diffusion模型,实现了从单张MRI到高分辨率三维体积的生成。在方法论层面,该数据集促进了测试时自适应(TTA)技术的革新,相关论文被MICCAI 2024评为最佳医学影像算法。
以上内容由遇见数据集搜集并总结生成



