PreCT-160K|医学影像数据集|数据分析数据集
收藏Large-Scale 3D Medical Image Pre-training
数据集概述
- VoCo: 一种新的用于大规模3D医学图像预训练的方法。
- 数据集:
- PreCT-160K: 包含160K个CT体积(42M切片),是目前该领域最大的数据集。
- VoComni: 包含20K个带有伪标签的体积(20个器官和肿瘤类别)。
- VoCovid: 用于半监督的COVID-19分割。
预训练模型
- 模型参数范围: 31M~1.2B
- 模型列表:
- VoComni_nnunet: 31M参数
- VoCo_B_SSL_head: 53M参数
- VoCo_L_SSL_head: 206M参数
- VoCo_H_SSL_head: 818M参数
- VoComni_B: 72M参数
- VoComni_L: 290M参数
- VoComni_H: 1.2B参数
下游任务
- 任务数量: 50+
- 任务类型: 分割、分类、配准、视觉语言等
预训练方法
- Fully-supervised: 使用标记数据进行预训练
- Self-supervised: 使用未标记数据进行预训练
- Semi-supervised: 使用标记和未标记数据进行预训练
- Omni-supervised: 使用标记和未标记数据进行预训练
数据集下载
- PreCT-160K: 需要22.6 TB存储空间
- VoComni: 需要少于10 TB存储空间
- VoCovid: 可从Hugging Face下载
引用
bibtex @InProceedings{voco-v1, author = {Wu, Linshan and Zhuang, Jiaxin and Chen, Hao}, title = {VoCo: A Simple-yet-Effective Volume Contrastive Learning Framework for 3D Medical Image Analysis}, booktitle = {CVPR}, month = {June}, year = {2024}, pages = {22873-22882} }

Materials Project
材料项目是一组标有不同属性的化合物。数据集链接: MP 2018.6.1(69,239 个材料) MP 2019.4.1(133,420 个材料)
OpenDataLab 收录
flames-and-smoke-datasets
该仓库总结了多个公开的火焰和烟雾数据集,包括DFS、D-Fire dataset、FASDD、FLAME、BoWFire、VisiFire、fire-smoke-detect-yolov4、Forest Fire等数据集。每个数据集都有详细的描述,包括数据来源、图像数量、标注信息等。
github 收录
中国近海台风路径集合数据集(1945-2024)
1945-2024年度,中国近海台风路径数据集,包含每个台风的真实路径信息、台风强度、气压、中心风速、移动速度、移动方向。 数据源为获取温州台风网(http://www.wztf121.com/)的真实观测路径数据,经过处理整合后形成文件,如使用csv文件需使用文本编辑器打开浏览,否则会出现乱码,如要使用excel查看数据,请使用xlsx的格式。
国家海洋科学数据中心 收录
SeaDronesSee
SeaDronesSee是由德国图宾根大学认知系统组创建的大型视觉对象检测和跟踪基准,专注于海洋环境中的人类检测。该数据集包含超过54,000帧,总计400,000个实例,从不同高度和视角(5至260米,0至90度)捕获,并提供详细的元信息。数据集的创建旨在填补陆基视觉系统与海基系统之间的差距,特别适用于无人机辅助的海上搜救任务。SeaDronesSee通过提供精确的元数据,如高度、视角和速度,支持多模态系统的开发,以提高检测的准确性和速度。此外,数据集还包括多光谱图像,利用非可见光谱(如近红外和红边光谱)来增强人类检测能力。
arXiv 收录
ChineseSafe
ChineseSafe是由南方科技大学统计与数据科学系创建的一个中文安全评估基准数据集,旨在评估大型语言模型在识别中文不安全内容方面的能力。该数据集包含205,034个样本,涵盖4个类别和10个子类别的安全问题,特别关注政治敏感性、色情内容和变体/同音词等新型安全问题。数据集通过从开源数据集和互联网资源中收集数据,经过数据清洗和去重处理,确保了数据集的高质量和多样性。ChineseSafe的应用领域主要集中在大型语言模型的安全评估,旨在帮助开发者和研究者提升模型在实际应用中的安全性。
arXiv 收录