Semi-Aves, Semi-Fungi, Semi-CUB, Semi-iNat

github2021-12-22 更新2024-05-31 收录

下载链接：

https://github.com/cvl-umass/ssl-evaluation

下载链接

链接失效反馈

官方服务：

资源简介：

这些数据集用于半监督学习在细粒度分类中的实际评估，包括鸟类、真菌、鸟类200-2011和自然界物种的图像数据。

These datasets are utilized for the practical evaluation of semi-supervised learning in fine-grained classification, encompassing image data of birds, fungi, the CUB-200-2011 dataset, and species in the natural world.

创建时间：

2021-04-01

原始信息汇总

数据集概述

数据集列表

Semi-Aves: 来自Semi-Aves Challenge的数据集，用于CVPR 2020的FGVC7 workshop。
Semi-Fungi: 基于2018 FGVCx Fungi Classification Challenge构建的数据集，用于CVPR 2018的FGVC5 workshop。
Semi-CUB: 基于Caltech-UCSD Birds-200-2011数据集构建。
Semi-iNat: 新的数据集，用于CVPR 2021的FGVC8 workshop的Semi-iNat Challenge。

数据集结构

每个数据集的分割信息存储在data/${dataset}/${split}.txt中，包括：

l_train: 标记的域内数据
u_train_in: 未标记的域内数据
u_train_out: 未标记的域外数据
u_train: 合并u_train_in和u_train_out
val: 验证集
l_train_val: 合并l_train和val
test: 测试集

每行文本文件包含文件名和相应的类别标签。

数据集下载与存储

Semi-Aves: 数据存储在data/semi_aves。
Semi-Fungi 和 Semi-CUB: 图像存储在data/semi_fungi/images和data/cub/images。

数据集注意事项

Semi-Fungi: 图像最大边长调整为300px。
Semi-Aves: 提供额外的交叉验证分割，但不公开标签以避免泄露未标记数据的标签。
Semi-Aves 和 Semi-Fungi: 提供物种名称文件。

训练与评估

CVPR论文中的训练与评估

提供代码用于监督训练、自训练、PL和课程PL。使用基于此PyTorch实现的代码。

BMVC论文中的训练与评估

添加了基于粗略标签的层次监督的半监督学习。提供层次训练的命令和参数。

预训练模型

提供监督训练模型、MoCo预训练模型以及MoCo + 监督训练模型，适用于Semi-Aves和Semi-Fungi数据集。模型可通过链接下载。

相关挑战

Semi-iNat 2021 Competition 和 Semi-Aves 2020 Competition 提供了挑战的网站、Kaggle链接和技术报告。

搜集汇总

数据集介绍

构建方式

Semi-Aves、Semi-Fungi、Semi-CUB和Semi-iNat数据集的构建基于多个细粒度分类挑战赛的数据。Semi-Aves源自FGVC7研讨会的Semi-Aves挑战赛，Semi-Fungi则基于FGVC5研讨会的2018 FGVCx真菌分类挑战赛数据，而Semi-CUB则从Caltech-UCSD Birds-200-2011数据集中提取。Semi-iNat则是为FGVC8半监督挑战赛新构建的数据集，涵盖了更多不同生物界的物种，且不包含域内或域外标签。每个数据集的数据分割包括标记的域内数据、未标记的域内数据、未标记的域外数据、验证集和测试集。

特点

这些数据集的特点在于其细粒度分类任务的复杂性，尤其是Semi-iNat数据集，它不仅包含了丰富的物种多样性，还引入了半监督学习的挑战。Semi-Aves和Semi-Fungi数据集则分别专注于鸟类和真菌的分类，提供了详细的物种名称信息。此外，Semi-CUB数据集则以其高质量的鸟类图像和详细的标注信息著称。这些数据集的设计旨在推动半监督学习在细粒度分类中的应用，尤其是在数据标注成本高昂的领域。

使用方法

使用这些数据集时，首先需要从相应的网站下载数据，并将其放置在指定的目录下。训练模型时，可以通过命令行参数指定任务、初始化方法、算法类型、未标记数据的类型等。例如，使用Semi-Aves数据集进行监督学习时，可以通过指定任务为`semi_aves`、初始化方法为`inat`、算法为`supervised`等参数来启动训练。此外，还提供了预训练模型，用户可以直接下载并使用这些模型进行自训练或其他半监督学习方法。详细的训练和评估代码以及超参数设置可以在GitHub仓库中找到。

背景与挑战

背景概述

Semi-Aves、Semi-Fungi、Semi-CUB和Semi-iNat数据集是专为细粒度分类任务设计的半监督学习数据集，旨在解决细粒度视觉分类中的标注数据稀缺问题。这些数据集由Jong-Chyi Su、Zezhou Cheng和Subhransu Maji等研究人员在2021年提出，并在CVPR和BMVC等顶级计算机视觉会议上发表相关研究。Semi-Aves和Semi-Fungi分别基于FGVC7和FGVC5研讨会中的挑战数据集构建，而Semi-CUB则源自Caltech-UCSD Birds-200-2011数据集。Semi-iNat则是为FGVC8研讨会设计的新数据集，涵盖了更多物种分类。这些数据集通过提供标注数据与未标注数据的组合，推动了半监督学习在细粒度分类中的应用，并对计算机视觉领域的研究产生了深远影响。

当前挑战

这些数据集在解决细粒度分类问题时面临多重挑战。首先，细粒度分类任务本身具有较高的难度，因为不同类别之间的视觉差异往往非常细微，需要模型具备极强的特征提取能力。其次，半监督学习的核心挑战在于如何有效利用未标注数据提升模型性能，尤其是在未标注数据中存在域外样本的情况下。此外，数据集的构建过程中也面临挑战，例如如何合理划分标注与未标注数据，以及如何确保数据集的多样性和代表性。Semi-iNat数据集进一步增加了复杂性，因其包含更多物种且未明确区分域内与域外样本，这对模型的泛化能力提出了更高要求。

常用场景

经典使用场景

Semi-Aves、Semi-Fungi、Semi-CUB和Semi-iNat数据集在细粒度分类任务中展现了其独特的价值。这些数据集通过提供大量未标注数据，结合少量标注数据，为半监督学习算法的评估和优化提供了理想的实验平台。特别是在计算机视觉领域，这些数据集被广泛用于探索如何利用未标注数据提升模型在细粒度分类任务中的表现。

实际应用

在实际应用中，Semi-Aves、Semi-Fungi、Semi-CUB和Semi-iNat数据集被广泛应用于生物多样性监测、物种识别和生态保护等领域。例如，在生物多样性监测中，这些数据集可以帮助研究人员快速识别和分类大量物种，从而为生态系统的保护和管理提供数据支持。

衍生相关工作

基于这些数据集，研究者们开发了多种半监督学习算法，如FixMatch、MoCo等。这些算法不仅在细粒度分类任务中取得了显著的效果，还为其他领域的半监督学习研究提供了重要的参考。此外，这些数据集还催生了一系列相关的竞赛和挑战，如Semi-iNat 2021 Competition和Semi-Aves 2020 Competition，进一步推动了该领域的研究进展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集