10K CT scans

Name: 10K CT scans
Creator: 中国科学技术大学
Published: 2025-02-12 20:14:02
License: 暂无描述

arXiv2025-02-12 更新2025-02-14 收录

下载链接：

https://github.com/FengheTan9/Hi-End-MAE

下载链接

链接失效反馈

官方服务：

资源简介：

10K CT scans数据集是由中国科学技术大学 School of Biomedical Engineering Division of Life Sciences and Medicine等机构创建的，包含10000个CT扫描图像。该数据集用于Hi-End-MAE模型的预训练，该模型通过编码器驱动的掩码自动编码技术，实现医学图像分割。数据集的特点是利用了大规模未标注的医学数据，通过自监督学习的方式学习到丰富的局部特征，适用于医学图像分割等下游任务。

The 10K CT Scans Dataset was developed by institutions including the School of Biomedical Engineering, Division of Life Sciences and Medicine, University of Science and Technology of China (USTC), and other relevant organizations, and it comprises 10,000 CT scan images. This dataset is used for pre-training the Hi-End-MAE model, which adopts encoder-driven masked autoencoding technology to accomplish medical image segmentation. The dataset is characterized by leveraging large-scale unannotated medical data to learn rich local features through self-supervised learning, making it applicable to downstream tasks such as medical image segmentation.

提供机构：

中国科学技术大学

创建时间：

2025-02-12

搜集汇总

数据集介绍

构建方式

10K CT scans数据集是通过收集来自13个公开的CT扫描数据集，共计9995个CT扫描图像构建而成的。这些数据集包括BTCV、Sliver07、CT-ORG、FLARE’22、CHAOS、NaH-Seg、KiPA22、COVID-19、Pancreas-CT、LiTS、AbdomenCT-1k、LUNA16和AbdomenAtlasMini 1.0。数据集的构建过程中，所有数据集的图像都被插值到1.5毫米的同质体素间距，强度缩放到[-175, 250]，然后归一化到[0, 1]。此外，数据集被裁剪成96 × 96 × 96体素的子体积作为输入。

特点

10K CT scans数据集的主要特点在于其规模庞大，包含近10,000个CT扫描图像，为医学图像分析提供了丰富的数据基础。此外，数据集在构建过程中进行了预处理，包括图像插值、强度缩放和归一化，以及裁剪成统一的子体积大小，这为下游任务提供了标准化和易于处理的数据格式。数据集的公开性也使其成为医学图像分析领域的宝贵资源，有助于推动相关研究的发展。

使用方法

10K CT scans数据集适用于医学图像分割等下游任务。使用该数据集进行预训练时，可以采用类似于Hi-End-MAE的框架，该框架通过编码器驱动的密集解码和层次密集解码结构来学习医学图像中的丰富特征。预训练完成后，模型可以用于各种医学图像分割任务，如肝脏、肾脏、脾脏等器官的分割。此外，该数据集也适用于跨模态迁移学习，例如将预训练模型从CT领域迁移到MRI领域，从而提高模型在不同模态下的泛化能力。

背景与挑战

背景概述

医学图像分割一直是医学图像分析领域的重大挑战，由于缺乏标注数据，该领域的研究进展受到限制。为了解决这个问题，研究人员通过在大规模无标签医学数据集上进行掩码图像建模（MIM）来预训练视觉Transformer（ViT），以期提高计算效率和模型泛化能力。10K CT scans数据集由中国科学院计算技术研究所等机构的研究人员创建，用于预训练Hi-End-MAE模型，该模型通过编码器驱动的重建和分层密集解码，实现了对医学图像分割任务的精确捕捉，并在七个公共医学图像分割基准数据集上取得了优异的性能。

当前挑战

10K CT scans数据集在预训练Hi-End-MAE模型时面临的挑战主要包括：1）医学图像分割任务的精确捕捉，由于医学图像的复杂性和多样性，需要模型能够捕捉到精细的语义信息；2）构建大规模3D医学数据集的挑战，需要解决计算资源限制和大规模无标签医学数据的增加所带来的问题。

常用场景

经典使用场景

在医疗影像分析领域，10K CT scans 数据集被广泛应用于医学图像分割任务，特别是在深度学习模型的自监督预训练阶段。通过在大量未标记的 CT 扫描数据上进行预训练，模型可以学习到丰富的特征表示，进而提升其在医学图像分割、检测等下游任务上的性能。

衍生相关工作

10K CT scans 数据集衍生了一系列相关的研究工作，如基于掩码图像建模（MIM）的自监督学习方法。这些方法通过在 10K CT scans 数据集上进行预训练，学习到丰富的特征表示，从而提高了医学图像分割、检测等下游任务上的性能。此外，10K CT scans 数据集还促进了医学图像分析领域的发展，推动了医学图像分割、检测等任务的进步。

数据集最近研究