WebFG-496, WebiNat-5089

Name: WebFG-496, WebiNat-5089
Creator: 南京理工大学计算机科学与工程学院
Published: 2021-08-05T14:28:32+08:00

arXiv2021-08-11 更新2024-06-21 收录

细粒度视觉识别

监督学习

数据链接：

https://github.com/NUST-Machine-Intelligence-Laboratory/weblyFG-dataset 数据链接链接失效反馈

官方服务：

资源简介：

本研究构建了两个新的网络监督细粒度数据集WebFG-496和WebiNat-5089，用于评估网络监督细粒度识别算法。WebFG-496包含三个子数据集，总计53,339张网络训练图像，涵盖200种鸟类、100种飞机和196种汽车模型。WebiNat-5089包含5089个子类别和超过110万张网络训练图像，是目前最大的网络监督细粒度数据集。这些数据集的创建旨在解决细粒度识别中的标签噪声、类别内变异大和类别不平衡等问题，适用于细粒度视觉识别研究。

This study constructs two novel web-supervised fine-grained visual recognition datasets, WebFG-496 and WebiNat-5089, for evaluating web-supervised fine-grained visual recognition algorithms. WebFG-496 comprises three subsets, with a total of 53,339 web-sourced training images covering 200 bird species, 100 aircraft models, and 196 car models. WebiNat-5089 contains 5,089 subcategories and over 1.1 million web-sourced training images, making it the largest web-supervised fine-grained dataset to date. These datasets are developed to address critical challenges in fine-grained visual recognition, including label noise, large intra-class variation, and class imbalance, and are applicable to fine-grained visual recognition research.

提供机构：

南京理工大学计算机科学与工程学院

创建时间：

2021-08-05

搜集汇总

数据集介绍

构建方式

WebFG-496数据集的构建方式是利用现有细粒度数据集FGVC-Aircraft、CUB200-2011和Stanford Cars中的类别标签，通过从互联网上收集相关图片构建而成。WebiNat-5089数据集则是在iNat2017数据集的基础上，通过从互联网上收集相关图片构建而成。为了降低噪声的影响，两个数据集都采用了从图像搜索引擎中爬取排名靠前的图片作为候选训练图片，并经过去除无效链接、去除损坏图片和去除重复图片等步骤进行数据清洗。最终，WebFG-496数据集包含了53,339张训练图片，WebiNat-5089数据集包含了1,184,520张训练图片。

特点

WebFG-496数据集包含了三个子数据集：Web-aircraft、Web-bird和Web-car，分别对应飞机、鸟类和汽车三个类别，共计496个细粒度类别。WebiNat-5089数据集包含了5,089个细粒度类别，是迄今为止最大的细粒度网络监督数据集。两个数据集都面临着标签噪声、小类别间差异和类别不平衡等问题。为了解决这些问题，作者提出了Peer-learning方法，通过同时训练两个深度神经网络，并让它们相互纠正分类错误，从而提高模型在噪声网络监督细粒度识别任务上的性能。

使用方法

WebFG-496和WebiNat-5089数据集可用于评估网络监督细粒度识别算法的性能。Peer-learning方法可用于从噪声网络图片中训练鲁棒的深度细粒度模型。在实验中，作者使用B-CNN作为基础网络结构，并采用两阶段训练策略进行训练。在WebiNat-5089数据集上，由于数据集规模较大，作者采用了单阶段训练策略。在实验中，作者将Peer-learning方法与其他网络监督方法进行了比较，结果表明Peer-learning方法在WebFG-496和WebiNat-5089数据集上都取得了较好的性能。

背景与挑战

背景概述

在深度学习领域，细粒度识别（Fine-Grained Recognition）旨在区分子类别，对于鸟类、飞机、汽车等视觉相似度极高的类别识别具有重要意义。然而，构建大规模细粒度数据集需要大量的人力标注，成本高昂。为此，研究人员开始探索利用网络图像进行细粒度识别的方法，以降低标注成本。WebFG-496和WebiNat-5089数据集正是为了填补这一领域空白而构建的。WebFG-496包含三个子数据集，分别包含鸟类、飞机和汽车的网络训练图像，总计53,339张图像，涵盖200种鸟类、100种飞机和196种汽车。WebiNat-5089则包含5089个子类别和超过110万张网络训练图像，是目前规模最大的网络监督细粒度数据集。这两个数据集的构建为评估网络监督细粒度识别方法提供了基准，推动了相关领域的研究进展。

当前挑战

WebFG-496和WebiNat-5089数据集在构建过程中面临了三个主要挑战：1) 标签噪声：与人工标注数据集不同，网络图像往往伴随着标签噪声，这主要源于自动或非领域专家的标注误差。WebFG-496数据集考虑了两种类型的标签噪声，即跨域噪声和跨类别噪声。2) 类内差异小、类间差异大：如图1(b)所示，WebFG-496数据集中的三个细粒度子类别之间存在较小的类间差异，而每个子类别内部存在较大的类内差异。3) 类别不平衡：自然世界中的类别分布往往是不平衡的，某些物种更容易被观察到。如图1(c)所示，WebiNat-5089数据集中，“Udea Rubigalis”类别拥有563张训练图像，而“Hordnia Atropunctata”类别仅有4张。为了解决这些问题，研究人员提出了Peer-learning方法，通过同时训练两个深度神经网络，并让它们相互纠正分类错误，从而提高网络监督细粒度识别的性能。

常用场景

经典使用场景

WebFG-496和WebiNat-5089数据集主要用于网络监督下的细粒度识别研究，旨在解决细粒度识别任务中手动标注数据集成本高昂的问题。这两个数据集通过利用网络上的免费数据进行训练，极大地降低了标注成本，为细粒度识别研究提供了新的方向。

实际应用

WebFG-496和WebiNat-5089数据集在实际应用中具有广泛的应用前景。例如，在图像分类、目标检测、图像分割等领域，这两个数据集可以用于训练和评估细粒度识别模型，提高模型的准确性和鲁棒性。此外，这两个数据集还可以用于开发新的细粒度识别算法和应用，推动细粒度识别技术的发展。

衍生相关工作

WebFG-496和WebiNat-5089数据集的发布，推动了网络监督下细粒度识别领域的研究。基于这两个数据集，研究人员提出了许多新的细粒度识别算法和应用，例如Peer-learning、Decoupling和Co-teaching等。这些算法和应用在实际应用中取得了显著的成果，推动了细粒度识别技术的发展。

以上内容由遇见数据集搜集并总结生成

WebFG-496, WebiNat-5089

资源简介：

相关数据集