TotalSegmentator dataset (TS)
收藏arXiv2024-05-15 更新2024-08-06 收录
下载链接:
http://arxiv.org/abs/2405.09334v1
下载链接
链接失效反馈官方服务:
资源简介:
用于区域和多器官检索的基准数据集,包含详细的多个器官标注。
A benchmark dataset for regional and multi-organ retrieval, which includes detailed annotations of multiple organs.
创建时间:
2024-05-15
搜集汇总
数据集介绍

构建方式
在医学影像分析领域,构建高质量的数据集对于推动基于内容的图像检索(CBIR)研究至关重要。TotalSegmentator数据集(TS)的构建依托于1204个计算机断层扫描(CT)三维体积图像,每幅图像均包含104个解剖结构的精细标注。数据集的构建过程遵循严格的医学影像处理标准,通过专业放射科医师的标注与验证,确保了标注的准确性与一致性。此外,研究团队还设计了从原始104个精细类别到29个粗粒度解剖区域的映射,以支持不同粒度下的检索任务评估。数据集的划分采用训练集与测试集分离的方式,训练集用于构建检索数据库,测试集则作为查询集,从而模拟真实世界中的检索场景。
使用方法
在基于TotalSegmentator数据集的CBIR研究中,使用方法主要围绕三维体积图像的检索流程展开。首先,从三维CT体积中提取二维切片,并利用预训练的视觉模型(如DINOv1、DreamSim等)生成切片级别的嵌入表示。这些嵌入通过高效的索引技术(如HNSW)存储在向量数据库中,以支持快速的相似性搜索。检索过程分为基于体积和基于区域两种模式:前者针对整个查询体积检索最相似的体积,后者则针对特定解剖区域进行检索。研究还引入了受ColBERT启发的重排序方法,通过考虑整个体积的相似性来优化检索结果。最终,通过计算检索召回率等指标,系统评估不同嵌入模型和检索策略在粗细粒度解剖结构上的性能。
背景与挑战
背景概述
TotalSegmentator数据集(TS)由Jakob Wasserthal等人于2023年创建,旨在为医学影像分析提供全面且精细的多器官分割标注。该数据集包含1204个计算机断层扫描(CT)三维体积图像,涵盖104个解剖结构,为解剖区域分割与检索任务奠定了重要基础。在医学影像领域,内容基于图像检索(CBIR)技术面临三维体积数据处理的复杂性挑战,而TS数据集凭借其详尽的标注,成为评估多器官检索方法的关键资源。拜耳公司的研究团队在2024年进一步利用TS数据集,建立了基于区域的医学影像检索基准,推动了三维医学影像检索技术的发展,对计算机辅助诊断与影像分析研究产生了深远影响。
当前挑战
TotalSegmentator数据集在应用过程中面临多重挑战。在领域问题层面,医学影像检索需处理三维体积数据,而现有算法多针对二维自然图像设计,导致语义鸿沟与计算复杂度增加;同时,多器官共存于同一体积中,要求检索方法能够精准区分与定位特定解剖结构,这对算法的细粒度识别能力提出了更高要求。在构建过程中,数据标注的精细性与一致性是核心难题,104个解剖结构的标注需确保高精度与临床相关性;此外,数据集中器官尺寸与形态的多样性(如小器官与细长结构)可能影响检索性能的均衡评估,需在基准设计中充分考虑这些因素以提升方法的鲁棒性与实用性。
常用场景
经典使用场景
在医学影像分析领域,TotalSegmentator数据集(TS)作为一项关键资源,其经典使用场景聚焦于三维医学影像的内容检索。该数据集凭借涵盖104个解剖结构的精细标注,为基于内容的图像检索(CBIR)提供了多器官、多标签的评估基准。研究通常利用TS数据集,通过提取预训练视觉嵌入,构建向量数据库,并采用分层可导航小世界图(HNSW)等索引技术,实现从大规模CT影像库中高效检索相似体积或特定解剖区域。这种检索模式不仅支持整体扫描的相似性匹配,更允许针对单一器官或局部区域进行精准查询,为医学影像的智能检索奠定了实践基础。
解决学术问题
TotalSegmentator数据集有效解决了医学影像检索领域长期存在的若干学术难题。首先,它填补了三维容积医学影像检索基准的空白,使得不同CBIR方法的性能能够被客观评估与比较。其次,数据集提供的多器官精细标注克服了单器官数据集的局限性,支持区域级与多器官检索任务的全面验证。此外,通过对比监督与非监督预训练嵌入的性能,该数据集揭示了自然图像预训练模型在医学影像检索中的迁移潜力,为跨域特征学习提供了实证依据。这些贡献显著推动了医学影像检索从理论探索向标准化、可复现研究范式的转变。
实际应用
在实际医疗场景中,TotalSegmentator数据集的应用价值体现在多个层面。放射科医师可利用基于该数据集构建的CBIR系统,快速检索具有相似解剖特征的既往病例,辅助诊断决策与预后评估。对于缺乏标准DICOM头文件或标注的大规模影像档案,该系统能够实现高效的内容检索,极大节省人工筛查时间。此外,在医学研究与工具开发中,TS数据集为构建可靠的影像检索管道提供了高质量数据源,支持计算机辅助诊断系统的优化与验证。这种技术尤其适用于需要定位特定器官或病变区域的临床工作流,提升了医学影像分析的效率与准确性。
数据集最近研究
最新研究方向
在医学影像分析领域,TotalSegmentator数据集凭借其涵盖104个解剖结构的精细标注,已成为三维医学图像内容检索研究的重要基石。近期研究聚焦于构建基于内容的医学图像检索基准,通过引入ColBERT启发的延迟交互重排序方法,显著提升了多器官检索的准确率。该工作系统评估了自监督与监督预训练嵌入在体积与区域检索中的表现,揭示了自监督模型在细粒度解剖结构检索中的优越性。这一基准的建立不仅填补了三维医学图像检索标准化评估的空白,更为临床决策支持系统的发展提供了关键的技术支撑,推动了医学影像智能检索向精准化、场景化方向演进。
相关研究论文
- 1Content-Based Image Retrieval for Multi-Class Volumetric Radiology Images: A Benchmark Study · 2024年
以上内容由遇见数据集搜集并总结生成



