PreCT-160K|医学影像数据集|数据分析数据集
收藏Large-Scale 3D Medical Image Pre-training
数据集概述
- VoCo: 一种新的用于大规模3D医学图像预训练的方法。
- 数据集:
- PreCT-160K: 包含160K个CT体积(42M切片),是目前该领域最大的数据集。
- VoComni: 包含20K个带有伪标签的体积(20个器官和肿瘤类别)。
- VoCovid: 用于半监督的COVID-19分割。
预训练模型
- 模型参数范围: 31M~1.2B
- 模型列表:
- VoComni_nnunet: 31M参数
- VoCo_B_SSL_head: 53M参数
- VoCo_L_SSL_head: 206M参数
- VoCo_H_SSL_head: 818M参数
- VoComni_B: 72M参数
- VoComni_L: 290M参数
- VoComni_H: 1.2B参数
下游任务
- 任务数量: 50+
- 任务类型: 分割、分类、配准、视觉语言等
预训练方法
- Fully-supervised: 使用标记数据进行预训练
- Self-supervised: 使用未标记数据进行预训练
- Semi-supervised: 使用标记和未标记数据进行预训练
- Omni-supervised: 使用标记和未标记数据进行预训练
数据集下载
- PreCT-160K: 需要22.6 TB存储空间
- VoComni: 需要少于10 TB存储空间
- VoCovid: 可从Hugging Face下载
引用
bibtex @InProceedings{voco-v1, author = {Wu, Linshan and Zhuang, Jiaxin and Chen, Hao}, title = {VoCo: A Simple-yet-Effective Volume Contrastive Learning Framework for 3D Medical Image Analysis}, booktitle = {CVPR}, month = {June}, year = {2024}, pages = {22873-22882} }

LFW
人脸数据集;LFW数据集共有13233张人脸图像,每张图像均给出对应的人名,共有5749人,且绝大部分人仅有一张图片。每张图片的尺寸为250X250,绝大部分为彩色图像,但也存在少许黑白人脸图片。 URL: http://vis-www.cs.umass.edu/lfw/index.html#download
AI_Studio 收录
1963-2015年中国主要木本植物春季物候(展叶和开花始期)格网数据产品(V1)
中国物候观测网1963–2015年白蜡、垂柳、刺槐、合欢、桑树、榆树、杏树、紫荆、紫丁香和加拿大杨10种木本植物的展叶始期和开花始期格网数据,时间分辨率为逐年,空间分辨率为0.5°×0.5°。数据集组成包括:(1)数据头文件,内含物种物候期和分布范围格网的头文件信息;(2)物种物候期,内含每个物种展叶始期和开花始期1963–2015年的逐年文件;(3)物种分布范围,内含每个物种的实际分布范围格网。
地球大数据科学工程 收录
CE-CSL
CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集,旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段,涵盖超过70种不同的复杂背景,确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向,通过收集大量真实场景下的手语视频材料,覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域,旨在提高手语识别技术在复杂环境中的准确性和效率,促进聋人与听人社区之间的无障碍沟通。
arXiv 收录
HUSTgearbox
This reposotory release a gearbox failure dataset, which can support intelliegnt fault diagnosis research
github 收录
Materials Project
材料项目是一组标有不同属性的化合物。数据集链接: MP 2018.6.1(69,239 个材料) MP 2019.4.1(133,420 个材料)
OpenDataLab 收录