five

10K CT scans

收藏
arXiv2025-02-12 更新2025-02-14 收录
下载链接:
https://github.com/FengheTan9/Hi-End-MAE
下载链接
链接失效反馈
资源简介:
10K CT scans数据集是由中国科学技术大学 School of Biomedical Engineering Division of Life Sciences and Medicine等机构创建的,包含10000个CT扫描图像。该数据集用于Hi-End-MAE模型的预训练,该模型通过编码器驱动的掩码自动编码技术,实现医学图像分割。数据集的特点是利用了大规模未标注的医学数据,通过自监督学习的方式学习到丰富的局部特征,适用于医学图像分割等下游任务。

The 10K CT Scans Dataset was developed by institutions including the School of Biomedical Engineering under the Division of Life Sciences and Medicine, University of Science and Technology of China, and other relevant organizations. It contains 10,000 CT scan images in total. This dataset is used for pre-training the Hi-End-MAE model, which employs encoder-driven masked autoencoding technology to accomplish medical image segmentation. The dataset leverages large-scale unannotated medical data and learns abundant local features through self-supervised learning, making it applicable to downstream tasks such as medical image segmentation.
提供机构:
中国科学技术大学
创建时间:
2025-02-12
AI搜集汇总
数据集介绍
main_image_url
构建方式
10K CT scans数据集是通过收集来自13个公开的CT扫描数据集,共计9995个CT扫描图像构建而成的。这些数据集包括BTCV、Sliver07、CT-ORG、FLARE’22、CHAOS、NaH-Seg、KiPA22、COVID-19、Pancreas-CT、LiTS、AbdomenCT-1k、LUNA16和AbdomenAtlasMini 1.0。数据集的构建过程中,所有数据集的图像都被插值到1.5毫米的同质体素间距,强度缩放到[-175, 250],然后归一化到[0, 1]。此外,数据集被裁剪成96 × 96 × 96体素的子体积作为输入。
特点
10K CT scans数据集的主要特点在于其规模庞大,包含近10,000个CT扫描图像,为医学图像分析提供了丰富的数据基础。此外,数据集在构建过程中进行了预处理,包括图像插值、强度缩放和归一化,以及裁剪成统一的子体积大小,这为下游任务提供了标准化和易于处理的数据格式。数据集的公开性也使其成为医学图像分析领域的宝贵资源,有助于推动相关研究的发展。
使用方法
10K CT scans数据集适用于医学图像分割等下游任务。使用该数据集进行预训练时,可以采用类似于Hi-End-MAE的框架,该框架通过编码器驱动的密集解码和层次密集解码结构来学习医学图像中的丰富特征。预训练完成后,模型可以用于各种医学图像分割任务,如肝脏、肾脏、脾脏等器官的分割。此外,该数据集也适用于跨模态迁移学习,例如将预训练模型从CT领域迁移到MRI领域,从而提高模型在不同模态下的泛化能力。
背景与挑战
背景概述
医学图像分割一直是医学图像分析领域的重大挑战,由于缺乏标注数据,该领域的研究进展受到限制。为了解决这个问题,研究人员通过在大规模无标签医学数据集上进行掩码图像建模(MIM)来预训练视觉Transformer(ViT),以期提高计算效率和模型泛化能力。10K CT scans数据集由中国科学院计算技术研究所等机构的研究人员创建,用于预训练Hi-End-MAE模型,该模型通过编码器驱动的重建和分层密集解码,实现了对医学图像分割任务的精确捕捉,并在七个公共医学图像分割基准数据集上取得了优异的性能。
当前挑战
10K CT scans数据集在预训练Hi-End-MAE模型时面临的挑战主要包括:1)医学图像分割任务的精确捕捉,由于医学图像的复杂性和多样性,需要模型能够捕捉到精细的语义信息;2)构建大规模3D医学数据集的挑战,需要解决计算资源限制和大规模无标签医学数据的增加所带来的问题。
常用场景
经典使用场景
在医疗影像分析领域,10K CT scans 数据集被广泛应用于医学图像分割任务,特别是在深度学习模型的自监督预训练阶段。通过在大量未标记的 CT 扫描数据上进行预训练,模型可以学习到丰富的特征表示,进而提升其在医学图像分割、检测等下游任务上的性能。
衍生相关工作
10K CT scans 数据集衍生了一系列相关的研究工作,如基于掩码图像建模(MIM)的自监督学习方法。这些方法通过在 10K CT scans 数据集上进行预训练,学习到丰富的特征表示,从而提高了医学图像分割、检测等下游任务上的性能。此外,10K CT scans 数据集还促进了医学图像分析领域的发展,推动了医学图像分割、检测等任务的进步。
数据集最近研究
最新研究方向
本研究提出了Hi-End-MAE,一个基于Vision Transformer (ViT) 的医学图像分割预训练解决方案,旨在通过在大规模未标记的医学数据集上进行预训练,解决医学图像分割中标注数据稀缺的问题。Hi-End-MAE的两个关键创新包括:(1) 编码器驱动重建,它鼓励编码器学习更多 informative 的特征来指导掩码补丁的重建;(2) 分层密集解码,它实现了一种分层解码结构,以捕获不同层中的丰富表示。该研究在 10K CT 扫描数据集上预训练了 Hi-End-MAE,并在七个公共医学图像分割基准上评估了其性能。实验结果表明,Hi-End-MAE 在各种下游任务中展现出卓越的迁移学习能力,揭示了 ViT 在医学成像应用中的潜力。
相关研究论文
  • 1
    Hi-End-MAE: Hierarchical encoder-driven masked autoencoders are stronger vision learners for medical image segmentation中国科学技术大学 · 2025年
以上内容由AI搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作