PreCT-160K|医学影像数据集|数据分析数据集

github2024-10-15 更新2024-10-16 收录

医学影像

数据分析

下载链接：

https://github.com/Luffy03/Large-Scale-Medical

下载链接

链接失效反馈

资源简介：

该数据集是该领域中现有的最大数据集，包含160K个CT体积（42M个切片）。

创建时间：

2024-10-08

原始信息汇总

Large-Scale 3D Medical Image Pre-training

数据集概述

VoCo: 一种新的用于大规模3D医学图像预训练的方法。
数据集:
- PreCT-160K: 包含160K个CT体积（42M切片），是目前该领域最大的数据集。
- VoComni: 包含20K个带有伪标签的体积（20个器官和肿瘤类别）。
- VoCovid: 用于半监督的COVID-19分割。

预训练模型

模型参数范围: 31M~1.2B
模型列表:
- VoComni_nnunet: 31M参数
- VoCo_B_SSL_head: 53M参数
- VoCo_L_SSL_head: 206M参数
- VoCo_H_SSL_head: 818M参数
- VoComni_B: 72M参数
- VoComni_L: 290M参数
- VoComni_H: 1.2B参数

下游任务

任务数量: 50+
任务类型: 分割、分类、配准、视觉语言等

预训练方法

Fully-supervised: 使用标记数据进行预训练
Self-supervised: 使用未标记数据进行预训练
Semi-supervised: 使用标记和未标记数据进行预训练
Omni-supervised: 使用标记和未标记数据进行预训练

数据集下载

PreCT-160K: 需要22.6 TB存储空间
VoComni: 需要少于10 TB存储空间
VoCovid: 可从Hugging Face下载

引用

bibtex @InProceedings{voco-v1, author = {Wu, Linshan and Zhuang, Jiaxin and Chen, Hao}, title = {VoCo: A Simple-yet-Effective Volume Contrastive Learning Framework for 3D Medical Image Analysis}, booktitle = {CVPR}, month = {June}, year = {2024}, pages = {22873-22882} }

AI搜集汇总

数据集介绍

构建方式

在医学影像分析领域，PreCT-160K数据集的构建基于大规模的3D医学图像预训练需求。该数据集包含了160,000个CT体积（共计4200万张切片），通过收集和处理来自多个公开数据源的医学影像数据，确保了数据集的多样性和广泛性。数据集的构建过程中，采用了多种预训练方法，包括全监督、自监督、半监督和全监督预训练，以适应不同的研究需求和应用场景。

使用方法

使用PreCT-160K数据集时，研究人员可以通过Hugging Face平台下载数据集和预训练模型。数据集的加载和使用方法在README文件中有详细说明，包括如何加载预训练模型、调整模型参数以及进行微调。为了确保数据集的高效使用，建议在SSD上存储数据，并根据实际需求选择合适的预训练方法和模型参数。此外，数据集还提供了多种下游任务的实现代码，方便研究人员直接应用于实际项目中。

背景与挑战

背景概述

在医学影像分析领域，三维医学图像的预训练技术近年来取得了显著进展。PreCT-160K数据集由Linshan Wu、Jiaxin Zhuang和Hao Chen等研究人员于2024年创建，旨在推动大规模三维医学图像预训练的发展。该数据集包含160,000个CT体积（共计4200万张切片），是目前该领域中最大的数据集之一。其核心研究问题是如何利用几何上下文先验进行有效的三维医学图像预训练，从而提升下游任务的性能。PreCT-160K的发布不仅为研究人员提供了丰富的预训练资源，还推动了三维医学图像分析技术的进步。

当前挑战

尽管PreCT-160K数据集在规模和多样性上具有显著优势，但其构建和应用过程中仍面临诸多挑战。首先，数据集的存储需求巨大，原始数据需要22.6 TB的存储空间，预训练过程中还需额外的30 TB空间，这对计算资源提出了极高的要求。其次，数据集的标注和预处理过程复杂，涉及大量的计算和时间成本。此外，如何在有限的计算资源下高效地进行预训练，以及如何确保预训练模型在下游任务中的泛化能力，也是当前研究中亟待解决的问题。

常用场景

经典使用场景

在医学影像分析领域，PreCT-160K数据集以其庞大的规模和多样性，成为3D医学图像预训练的经典资源。该数据集包含160,000个CT体积（共计4200万张切片），为研究人员提供了丰富的几何和解剖学信息。通过利用这些数据进行预训练，研究人员可以显著提升模型在下游任务中的表现，如器官分割、肿瘤分类和图像配准等。

解决学术问题

PreCT-160K数据集解决了3D医学图像预训练中的关键学术问题，即如何在有限标注数据的情况下，通过大规模无标注数据提升模型性能。其庞大的数据量和多样性为模型提供了丰富的几何和解剖学先验知识，从而在下游任务中实现了更高的准确性和鲁棒性。这一研究成果对推动医学影像分析技术的发展具有重要意义。

实际应用

在实际应用中，PreCT-160K数据集被广泛用于医学影像分析系统的开发和优化。例如，在临床诊断中，通过预训练的模型可以更准确地识别和分割病变区域，辅助医生进行诊断和治疗规划。此外，该数据集还支持多种预训练策略，如全监督、自监督和半监督学习，为不同应用场景提供了灵活的解决方案。

数据集最近研究

最新研究方向

在3D医学图像处理领域，PreCT-160K数据集的最新研究方向主要集中在利用大规模预训练模型来提升医学图像分析的准确性和效率。通过引入VoCo方法，研究者们致力于开发一种简单而有效的体积对比学习框架，以处理3D医学图像的预训练任务。该方法不仅提供了160K体积（42M切片）的预训练数据集，还包含了31M至1.2B参数的预训练模型，以及多种预训练策略和50多个下游任务的实现。这些研究成果在CVPR 2024等顶级会议上得到了广泛关注，展示了其在医学图像分类、分割和注册等任务中的显著优势，为未来的医学图像处理研究奠定了坚实的基础。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

Materials Project

材料项目是一组标有不同属性的化合物。数据集链接： MP 2018.6.1（69,239 个材料） MP 2019.4.1（133,420 个材料）

OpenDataLab 收录

flames-and-smoke-datasets

该仓库总结了多个公开的火焰和烟雾数据集，包括DFS、D-Fire dataset、FASDD、FLAME、BoWFire、VisiFire、fire-smoke-detect-yolov4、Forest Fire等数据集。每个数据集都有详细的描述，包括数据来源、图像数量、标注信息等。

github 收录

中国近海台风路径集合数据集(1945-2024)

1945-2024年度，中国近海台风路径数据集，包含每个台风的真实路径信息、台风强度、气压、中心风速、移动速度、移动方向。数据源为获取温州台风网(http://www.wztf121.com/)的真实观测路径数据，经过处理整合后形成文件，如使用csv文件需使用文本编辑器打开浏览，否则会出现乱码，如要使用excel查看数据，请使用xlsx的格式。

国家海洋科学数据中心收录

SeaDronesSee

SeaDronesSee是由德国图宾根大学认知系统组创建的大型视觉对象检测和跟踪基准，专注于海洋环境中的人类检测。该数据集包含超过54,000帧，总计400,000个实例，从不同高度和视角（5至260米，0至90度）捕获，并提供详细的元信息。数据集的创建旨在填补陆基视觉系统与海基系统之间的差距，特别适用于无人机辅助的海上搜救任务。SeaDronesSee通过提供精确的元数据，如高度、视角和速度，支持多模态系统的开发，以提高检测的准确性和速度。此外，数据集还包括多光谱图像，利用非可见光谱（如近红外和红边光谱）来增强人类检测能力。

arXiv 收录

ChineseSafe

ChineseSafe是由南方科技大学统计与数据科学系创建的一个中文安全评估基准数据集，旨在评估大型语言模型在识别中文不安全内容方面的能力。该数据集包含205,034个样本，涵盖4个类别和10个子类别的安全问题，特别关注政治敏感性、色情内容和变体/同音词等新型安全问题。数据集通过从开源数据集和互联网资源中收集数据，经过数据清洗和去重处理，确保了数据集的高质量和多样性。ChineseSafe的应用领域主要集中在大型语言模型的安全评估，旨在帮助开发者和研究者提升模型在实际应用中的安全性。

arXiv 收录