TotalSegmentator dataset (TS)

arXiv2024-05-15 更新2024-08-06 收录

下载链接：

http://arxiv.org/abs/2405.09334v1

下载链接

链接失效反馈

官方服务：

资源简介：

用于区域和多器官检索的基准数据集，包含详细的多个器官标注。

A benchmark dataset for regional and multi-organ retrieval, which includes detailed annotations of multiple organs.

创建时间：

2024-05-15

搜集汇总

数据集介绍

构建方式

在医学影像分析领域，构建高质量的数据集对于推动基于内容的图像检索（CBIR）研究至关重要。TotalSegmentator数据集（TS）的构建依托于1204个计算机断层扫描（CT）三维体积图像，每幅图像均包含104个解剖结构的精细标注。数据集的构建过程遵循严格的医学影像处理标准，通过专业放射科医师的标注与验证，确保了标注的准确性与一致性。此外，研究团队还设计了从原始104个精细类别到29个粗粒度解剖区域的映射，以支持不同粒度下的检索任务评估。数据集的划分采用训练集与测试集分离的方式，训练集用于构建检索数据库，测试集则作为查询集，从而模拟真实世界中的检索场景。

使用方法

在基于TotalSegmentator数据集的CBIR研究中，使用方法主要围绕三维体积图像的检索流程展开。首先，从三维CT体积中提取二维切片，并利用预训练的视觉模型（如DINOv1、DreamSim等）生成切片级别的嵌入表示。这些嵌入通过高效的索引技术（如HNSW）存储在向量数据库中，以支持快速的相似性搜索。检索过程分为基于体积和基于区域两种模式：前者针对整个查询体积检索最相似的体积，后者则针对特定解剖区域进行检索。研究还引入了受ColBERT启发的重排序方法，通过考虑整个体积的相似性来优化检索结果。最终，通过计算检索召回率等指标，系统评估不同嵌入模型和检索策略在粗细粒度解剖结构上的性能。

背景与挑战

背景概述

TotalSegmentator数据集（TS）由Jakob Wasserthal等人于2023年创建，旨在为医学影像分析提供全面且精细的多器官分割标注。该数据集包含1204个计算机断层扫描（CT）三维体积图像，涵盖104个解剖结构，为解剖区域分割与检索任务奠定了重要基础。在医学影像领域，内容基于图像检索（CBIR）技术面临三维体积数据处理的复杂性挑战，而TS数据集凭借其详尽的标注，成为评估多器官检索方法的关键资源。拜耳公司的研究团队在2024年进一步利用TS数据集，建立了基于区域的医学影像检索基准，推动了三维医学影像检索技术的发展，对计算机辅助诊断与影像分析研究产生了深远影响。

当前挑战

TotalSegmentator数据集在应用过程中面临多重挑战。在领域问题层面，医学影像检索需处理三维体积数据，而现有算法多针对二维自然图像设计，导致语义鸿沟与计算复杂度增加；同时，多器官共存于同一体积中，要求检索方法能够精准区分与定位特定解剖结构，这对算法的细粒度识别能力提出了更高要求。在构建过程中，数据标注的精细性与一致性是核心难题，104个解剖结构的标注需确保高精度与临床相关性；此外，数据集中器官尺寸与形态的多样性（如小器官与细长结构）可能影响检索性能的均衡评估，需在基准设计中充分考虑这些因素以提升方法的鲁棒性与实用性。

常用场景

经典使用场景

在医学影像分析领域，TotalSegmentator数据集（TS）作为一项关键资源，其经典使用场景聚焦于三维医学影像的内容检索。该数据集凭借涵盖104个解剖结构的精细标注，为基于内容的图像检索（CBIR）提供了多器官、多标签的评估基准。研究通常利用TS数据集，通过提取预训练视觉嵌入，构建向量数据库，并采用分层可导航小世界图（HNSW）等索引技术，实现从大规模CT影像库中高效检索相似体积或特定解剖区域。这种检索模式不仅支持整体扫描的相似性匹配，更允许针对单一器官或局部区域进行精准查询，为医学影像的智能检索奠定了实践基础。

解决学术问题

TotalSegmentator数据集有效解决了医学影像检索领域长期存在的若干学术难题。首先，它填补了三维容积医学影像检索基准的空白，使得不同CBIR方法的性能能够被客观评估与比较。其次，数据集提供的多器官精细标注克服了单器官数据集的局限性，支持区域级与多器官检索任务的全面验证。此外，通过对比监督与非监督预训练嵌入的性能，该数据集揭示了自然图像预训练模型在医学影像检索中的迁移潜力，为跨域特征学习提供了实证依据。这些贡献显著推动了医学影像检索从理论探索向标准化、可复现研究范式的转变。

实际应用

在实际医疗场景中，TotalSegmentator数据集的应用价值体现在多个层面。放射科医师可利用基于该数据集构建的CBIR系统，快速检索具有相似解剖特征的既往病例，辅助诊断决策与预后评估。对于缺乏标准DICOM头文件或标注的大规模影像档案，该系统能够实现高效的内容检索，极大节省人工筛查时间。此外，在医学研究与工具开发中，TS数据集为构建可靠的影像检索管道提供了高质量数据源，支持计算机辅助诊断系统的优化与验证。这种技术尤其适用于需要定位特定器官或病变区域的临床工作流，提升了医学影像分析的效率与准确性。

数据集最近研究