five

PreCT-160K|医学影像数据集|数据分析数据集

收藏
github2024-10-15 更新2024-10-16 收录
医学影像
数据分析
下载链接:
https://github.com/Luffy03/Large-Scale-Medical
下载链接
链接失效反馈
资源简介:
该数据集是该领域中现有的最大数据集,包含160K个CT体积(42M个切片)。
创建时间:
2024-10-08
原始信息汇总

Large-Scale 3D Medical Image Pre-training

数据集概述

  • VoCo: 一种新的用于大规模3D医学图像预训练的方法。
  • 数据集:
    • PreCT-160K: 包含160K个CT体积(42M切片),是目前该领域最大的数据集。
    • VoComni: 包含20K个带有伪标签的体积(20个器官和肿瘤类别)。
    • VoCovid: 用于半监督的COVID-19分割。

预训练模型

  • 模型参数范围: 31M~1.2B
  • 模型列表:
    • VoComni_nnunet: 31M参数
    • VoCo_B_SSL_head: 53M参数
    • VoCo_L_SSL_head: 206M参数
    • VoCo_H_SSL_head: 818M参数
    • VoComni_B: 72M参数
    • VoComni_L: 290M参数
    • VoComni_H: 1.2B参数

下游任务

  • 任务数量: 50+
  • 任务类型: 分割、分类、配准、视觉语言等

预训练方法

  • Fully-supervised: 使用标记数据进行预训练
  • Self-supervised: 使用未标记数据进行预训练
  • Semi-supervised: 使用标记和未标记数据进行预训练
  • Omni-supervised: 使用标记和未标记数据进行预训练

数据集下载

  • PreCT-160K: 需要22.6 TB存储空间
  • VoComni: 需要少于10 TB存储空间
  • VoCovid: 可从Hugging Face下载

引用

bibtex @InProceedings{voco-v1, author = {Wu, Linshan and Zhuang, Jiaxin and Chen, Hao}, title = {VoCo: A Simple-yet-Effective Volume Contrastive Learning Framework for 3D Medical Image Analysis}, booktitle = {CVPR}, month = {June}, year = {2024}, pages = {22873-22882} }

AI搜集汇总
数据集介绍
main_image_url
构建方式
在医学影像分析领域,PreCT-160K数据集的构建基于大规模的3D医学图像预训练需求。该数据集包含了160,000个CT体积(共计4200万张切片),通过收集和处理来自多个公开数据源的医学影像数据,确保了数据集的多样性和广泛性。数据集的构建过程中,采用了多种预训练方法,包括全监督、自监督、半监督和全监督预训练,以适应不同的研究需求和应用场景。
使用方法
使用PreCT-160K数据集时,研究人员可以通过Hugging Face平台下载数据集和预训练模型。数据集的加载和使用方法在README文件中有详细说明,包括如何加载预训练模型、调整模型参数以及进行微调。为了确保数据集的高效使用,建议在SSD上存储数据,并根据实际需求选择合适的预训练方法和模型参数。此外,数据集还提供了多种下游任务的实现代码,方便研究人员直接应用于实际项目中。
背景与挑战
背景概述
在医学影像分析领域,三维医学图像的预训练技术近年来取得了显著进展。PreCT-160K数据集由Linshan Wu、Jiaxin Zhuang和Hao Chen等研究人员于2024年创建,旨在推动大规模三维医学图像预训练的发展。该数据集包含160,000个CT体积(共计4200万张切片),是目前该领域中最大的数据集之一。其核心研究问题是如何利用几何上下文先验进行有效的三维医学图像预训练,从而提升下游任务的性能。PreCT-160K的发布不仅为研究人员提供了丰富的预训练资源,还推动了三维医学图像分析技术的进步。
当前挑战
尽管PreCT-160K数据集在规模和多样性上具有显著优势,但其构建和应用过程中仍面临诸多挑战。首先,数据集的存储需求巨大,原始数据需要22.6 TB的存储空间,预训练过程中还需额外的30 TB空间,这对计算资源提出了极高的要求。其次,数据集的标注和预处理过程复杂,涉及大量的计算和时间成本。此外,如何在有限的计算资源下高效地进行预训练,以及如何确保预训练模型在下游任务中的泛化能力,也是当前研究中亟待解决的问题。
常用场景
经典使用场景
在医学影像分析领域,PreCT-160K数据集以其庞大的规模和多样性,成为3D医学图像预训练的经典资源。该数据集包含160,000个CT体积(共计4200万张切片),为研究人员提供了丰富的几何和解剖学信息。通过利用这些数据进行预训练,研究人员可以显著提升模型在下游任务中的表现,如器官分割、肿瘤分类和图像配准等。
解决学术问题
PreCT-160K数据集解决了3D医学图像预训练中的关键学术问题,即如何在有限标注数据的情况下,通过大规模无标注数据提升模型性能。其庞大的数据量和多样性为模型提供了丰富的几何和解剖学先验知识,从而在下游任务中实现了更高的准确性和鲁棒性。这一研究成果对推动医学影像分析技术的发展具有重要意义。
实际应用
在实际应用中,PreCT-160K数据集被广泛用于医学影像分析系统的开发和优化。例如,在临床诊断中,通过预训练的模型可以更准确地识别和分割病变区域,辅助医生进行诊断和治疗规划。此外,该数据集还支持多种预训练策略,如全监督、自监督和半监督学习,为不同应用场景提供了灵活的解决方案。
数据集最近研究
最新研究方向
在3D医学图像处理领域,PreCT-160K数据集的最新研究方向主要集中在利用大规模预训练模型来提升医学图像分析的准确性和效率。通过引入VoCo方法,研究者们致力于开发一种简单而有效的体积对比学习框架,以处理3D医学图像的预训练任务。该方法不仅提供了160K体积(42M切片)的预训练数据集,还包含了31M至1.2B参数的预训练模型,以及多种预训练策略和50多个下游任务的实现。这些研究成果在CVPR 2024等顶级会议上得到了广泛关注,展示了其在医学图像分类、分割和注册等任务中的显著优势,为未来的医学图像处理研究奠定了坚实的基础。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

LFW

人脸数据集;LFW数据集共有13233张人脸图像,每张图像均给出对应的人名,共有5749人,且绝大部分人仅有一张图片。每张图片的尺寸为250X250,绝大部分为彩色图像,但也存在少许黑白人脸图片。 URL: http://vis-www.cs.umass.edu/lfw/index.html#download

AI_Studio 收录

1963-2015年中国主要木本植物春季物候(展叶和开花始期)格网数据产品(V1)

中国物候观测网1963–2015年白蜡、垂柳、刺槐、合欢、桑树、榆树、杏树、紫荆、紫丁香和加拿大杨10种木本植物的展叶始期和开花始期格网数据,时间分辨率为逐年,空间分辨率为0.5°×0.5°。数据集组成包括:(1)数据头文件,内含物种物候期和分布范围格网的头文件信息;(2)物种物候期,内含每个物种展叶始期和开花始期1963–2015年的逐年文件;(3)物种分布范围,内含每个物种的实际分布范围格网。

地球大数据科学工程 收录

CE-CSL

CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集,旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段,涵盖超过70种不同的复杂背景,确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向,通过收集大量真实场景下的手语视频材料,覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域,旨在提高手语识别技术在复杂环境中的准确性和效率,促进聋人与听人社区之间的无障碍沟通。

arXiv 收录

HUSTgearbox

This reposotory release a gearbox failure dataset, which can support intelliegnt fault diagnosis research

github 收录

Materials Project

材料项目是一组标有不同属性的化合物。数据集链接: MP 2018.6.1(69,239 个材料) MP 2019.4.1(133,420 个材料)

OpenDataLab 收录