CUB-200, mini-ImageNet, DTD, Flowers-102, CIFAR-100|图像分类数据集|计算机视觉数据集
收藏数据集概述
数据集描述
该数据集用于Active Class-Incremental Learning (ACIL)研究,旨在从大规模未标注数据池中选择最具信息量的样本,以有效训练增量学习器。数据集包括以下几个部分:
- CUB-200
- mini-ImageNet
- DTD
- Flowers-102
- CIFAR-100(自动下载)
数据集下载
数据集文件已上传至Google Drive,用户可以下载并解压使用。
数据集使用
建议使用软链接部署数据集。用户可以将下载的数据集解压到任意目录,然后从LP-DiF的根目录创建符号链接。
bash cd CBS_LP-DiF mkdir data cd data ln -s /path/to/cub200 ./CUB_200_2011 ln -s /path/to/miniImageNet ./miniimagenet ln -s /path/to/dtd ./dtd ln -s /path/to/Flowers102 ./Flowers102 cd ..
数据集训练
用户可以通过运行提供的脚本来训练模型。例如:
-
在DTD数据集上运行CBS + 未标注数据,设置
B=100
(相当于5轮): bash bash start_scripts/acil_scripts/start_dtd_wo_base_our_acil_distribution_kmeans_random_discard_greedy_add_pseudo.sh 5 -
在Flowers102数据集上运行CBS,设置
B=20
(相当于1轮): bash bash start_scripts/acil_scripts/start_flowers_wo_base_our_acil_distribution_kmeans_random_discard_greedy.sh 1
在start_scripts/acil_scripts
目录下,用户可以找到更多针对不同数据集和不同主动学习方法的启动脚本。

中国食物成分数据库
食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源,是提供人类基本需求和基本社会保障的先决条件;也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础,兼具学术、经济、社会等多种价值。 本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分(含胆固醇)数据,657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。
国家人口健康科学数据中心 收录
WideIRSTD Dataset
WideIRSTD数据集包含七个公开数据集:SIRST-V2、IRSTD-1K、IRDST、NUDT-SIRST、NUDT-SIRST-Sea、NUDT-MIRSDT、Anti-UAV,以及由国防科技大学团队开发的数据集,包括模拟陆基和太空基数据,以及真实手动标注的太空基数据。数据集包含具有各种目标形状(如点目标、斑点目标、扩展目标)、波长(如近红外、短波红外和热红外)、图像分辨率(如256、512、1024、3200等)的图像,以及不同的成像系统(如陆基、空基和太空基成像系统)。
github 收录
LIDC-IDRI
LIDC-IDRI 数据集包含来自四位经验丰富的胸部放射科医师的病变注释。 LIDC-IDRI 包含来自 1010 名肺部患者的 1018 份低剂量肺部 CT。
OpenDataLab 收录
CliMedBench
CliMedBench是一个大规模的中文医疗大语言模型评估基准,由华东师范大学等机构创建。该数据集包含33,735个问题,涵盖14个核心临床场景,主要来源于顶级三级医院的真实电子健康记录和考试练习。数据集的创建过程包括专家指导的数据选择和多轮质量控制,确保数据的真实性和可靠性。CliMedBench旨在评估和提升医疗大语言模型在临床决策支持、诊断和治疗建议等方面的能力,解决医疗领域中模型性能评估的不足问题。
arXiv 收录
RadDet
RadDet是一个包含11种雷达类别的数据集,包括6种新的低概率干扰(LPI)多相码(P1, P2, P3, P4, Px, Zadoff-Chu)和一种新的宽带调频连续波(FMCW)。数据集覆盖500 MHz频段,包含40,000个雷达帧,分为训练集、验证集和测试集。数据集在两种不同的雷达环境中提供:稀疏数据集(RadDet-1T)和密集数据集(RadDet-9T)。
github 收录