five

PreCT-160K|医学影像数据集|数据分析数据集

收藏
github2024-10-15 更新2024-10-16 收录
医学影像
数据分析
下载链接:
https://github.com/Luffy03/Large-Scale-Medical
下载链接
链接失效反馈
资源简介:
该数据集是该领域中现有的最大数据集,包含160K个CT体积(42M个切片)。
创建时间:
2024-10-08
原始信息汇总

Large-Scale 3D Medical Image Pre-training

数据集概述

  • VoCo: 一种新的用于大规模3D医学图像预训练的方法。
  • 数据集:
    • PreCT-160K: 包含160K个CT体积(42M切片),是目前该领域最大的数据集。
    • VoComni: 包含20K个带有伪标签的体积(20个器官和肿瘤类别)。
    • VoCovid: 用于半监督的COVID-19分割。

预训练模型

  • 模型参数范围: 31M~1.2B
  • 模型列表:
    • VoComni_nnunet: 31M参数
    • VoCo_B_SSL_head: 53M参数
    • VoCo_L_SSL_head: 206M参数
    • VoCo_H_SSL_head: 818M参数
    • VoComni_B: 72M参数
    • VoComni_L: 290M参数
    • VoComni_H: 1.2B参数

下游任务

  • 任务数量: 50+
  • 任务类型: 分割、分类、配准、视觉语言等

预训练方法

  • Fully-supervised: 使用标记数据进行预训练
  • Self-supervised: 使用未标记数据进行预训练
  • Semi-supervised: 使用标记和未标记数据进行预训练
  • Omni-supervised: 使用标记和未标记数据进行预训练

数据集下载

  • PreCT-160K: 需要22.6 TB存储空间
  • VoComni: 需要少于10 TB存储空间
  • VoCovid: 可从Hugging Face下载

引用

bibtex @InProceedings{voco-v1, author = {Wu, Linshan and Zhuang, Jiaxin and Chen, Hao}, title = {VoCo: A Simple-yet-Effective Volume Contrastive Learning Framework for 3D Medical Image Analysis}, booktitle = {CVPR}, month = {June}, year = {2024}, pages = {22873-22882} }

AI搜集汇总
数据集介绍
main_image_url
构建方式
在医学影像分析领域,PreCT-160K数据集的构建基于大规模的3D医学图像预训练需求。该数据集包含了160,000个CT体积(共计4200万张切片),通过收集和处理来自多个公开数据源的医学影像数据,确保了数据集的多样性和广泛性。数据集的构建过程中,采用了多种预训练方法,包括全监督、自监督、半监督和全监督预训练,以适应不同的研究需求和应用场景。
使用方法
使用PreCT-160K数据集时,研究人员可以通过Hugging Face平台下载数据集和预训练模型。数据集的加载和使用方法在README文件中有详细说明,包括如何加载预训练模型、调整模型参数以及进行微调。为了确保数据集的高效使用,建议在SSD上存储数据,并根据实际需求选择合适的预训练方法和模型参数。此外,数据集还提供了多种下游任务的实现代码,方便研究人员直接应用于实际项目中。
背景与挑战
背景概述
在医学影像分析领域,三维医学图像的预训练技术近年来取得了显著进展。PreCT-160K数据集由Linshan Wu、Jiaxin Zhuang和Hao Chen等研究人员于2024年创建,旨在推动大规模三维医学图像预训练的发展。该数据集包含160,000个CT体积(共计4200万张切片),是目前该领域中最大的数据集之一。其核心研究问题是如何利用几何上下文先验进行有效的三维医学图像预训练,从而提升下游任务的性能。PreCT-160K的发布不仅为研究人员提供了丰富的预训练资源,还推动了三维医学图像分析技术的进步。
当前挑战
尽管PreCT-160K数据集在规模和多样性上具有显著优势,但其构建和应用过程中仍面临诸多挑战。首先,数据集的存储需求巨大,原始数据需要22.6 TB的存储空间,预训练过程中还需额外的30 TB空间,这对计算资源提出了极高的要求。其次,数据集的标注和预处理过程复杂,涉及大量的计算和时间成本。此外,如何在有限的计算资源下高效地进行预训练,以及如何确保预训练模型在下游任务中的泛化能力,也是当前研究中亟待解决的问题。
常用场景
经典使用场景
在医学影像分析领域,PreCT-160K数据集以其庞大的规模和多样性,成为3D医学图像预训练的经典资源。该数据集包含160,000个CT体积(共计4200万张切片),为研究人员提供了丰富的几何和解剖学信息。通过利用这些数据进行预训练,研究人员可以显著提升模型在下游任务中的表现,如器官分割、肿瘤分类和图像配准等。
解决学术问题
PreCT-160K数据集解决了3D医学图像预训练中的关键学术问题,即如何在有限标注数据的情况下,通过大规模无标注数据提升模型性能。其庞大的数据量和多样性为模型提供了丰富的几何和解剖学先验知识,从而在下游任务中实现了更高的准确性和鲁棒性。这一研究成果对推动医学影像分析技术的发展具有重要意义。
实际应用
在实际应用中,PreCT-160K数据集被广泛用于医学影像分析系统的开发和优化。例如,在临床诊断中,通过预训练的模型可以更准确地识别和分割病变区域,辅助医生进行诊断和治疗规划。此外,该数据集还支持多种预训练策略,如全监督、自监督和半监督学习,为不同应用场景提供了灵活的解决方案。
数据集最近研究
最新研究方向
在3D医学图像处理领域,PreCT-160K数据集的最新研究方向主要集中在利用大规模预训练模型来提升医学图像分析的准确性和效率。通过引入VoCo方法,研究者们致力于开发一种简单而有效的体积对比学习框架,以处理3D医学图像的预训练任务。该方法不仅提供了160K体积(42M切片)的预训练数据集,还包含了31M至1.2B参数的预训练模型,以及多种预训练策略和50多个下游任务的实现。这些研究成果在CVPR 2024等顶级会议上得到了广泛关注,展示了其在医学图像分类、分割和注册等任务中的显著优势,为未来的医学图像处理研究奠定了坚实的基础。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

AIS数据集

该研究使用了多个公开的AIS数据集,这些数据集经过过滤、清理和统计分析。数据集涵盖了多种类型的船舶,并提供了关于船舶位置、速度和航向的关键信息。数据集包括来自19,185艘船舶的AIS消息,总计约6.4亿条记录。

github 收录

中国1km分辨率逐月降水量数据集(1901-2024)

该数据集为中国逐月降水量数据,空间分辨率为0.0083333°(约1km),时间为1901.1-2024.12。数据格式为NETCDF,即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集,通过Delta空间降尺度方案在中国降尺度生成的。并且,使用496个独立气象观测点数据进行验证,验证结果可信。本数据集包含的地理空间范围是全国主要陆地(包含港澳台地区),不含南海岛礁等区域。为了便于存储,数据均为int16型存于nc文件中,降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理,Matlab发布了读入与存储nc文件的函数,读取函数为ncread,切换到nc文件存储文件夹,语句表达为:ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent]),其中XXX.nc为文件名,为字符串需要’’;var是从XXX.nc中读取的变量名,为字符串需要’’;i、j、t分别为读取数据的起始行、列、时间,leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样,研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令,可查看。数据坐标系统建议使用WGS84。

国家青藏高原科学数据中心 收录

糖尿病预测数据集

糖尿病相关的医学研究或者健康数据

AI_Studio 收录

DIOR

“DIOR” 是用于光学遥感图像中对象检测的大规模基准数据集,该数据集由23,463图像和带有水平边界框注释的192,518对象实例组成。

OpenDataLab 收录

中国逐日格点降水数据集V2(1960–2024,0.1°)

CHM_PRE V2数据集是一套高精度的中国大陆逐日格点降水数据集。该数据集基于1960年至今共3476个观测站的长期日降水观测数据,并纳入11个降水相关变量,用于表征降水的相关性。数据集采用改进的反距离加权方法,并结合基于机器学习的LGBM算法构建。CHM_PRE V2与现有的格点降水数据集(包括CHM_PRE V1、GSMaP、IMERG、PERSIANN-CDR和GLDAS)表现出良好的时空一致性。数据集基于63,397个高密度自动雨量站2015–2019年的观测数据进行验证,发现该数据集显著提高了降水测量精度,降低了降水事件的高估,为水文建模和气候评估提供了可靠的基础。CHM_PRE V2 数据集提供分辨率为0.1°的逐日降水数据,覆盖整个中国大陆(18°N–54°N,72°E–136°E)。该数据集涵盖1960–2024年,并将每年持续更新。日值数据以NetCDF格式提供,为了方便用户,我们还提供NetCDF和GeoTIFF格式的年度和月度总降水数据。

国家青藏高原科学数据中心 收录