Stanford-Dogs-Imbalanced

Hugging Face2024-07-05 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/Voxel51/Stanford-Dogs-Imbalanced

下载链接

链接失效反馈

官方服务：

资源简介：

StanfordDogsImbalanced是一个不平衡版本的Stanford Dogs数据集，包含19060个样本，语言为英语。该数据集专门设计用于测试类不平衡缓解技术，如合成数据生成。数据集被随机分为训练集、验证集和测试集，比例为60/20/20。对于15个随机选择的类别，训练示例被限制为仅保留10个。主要用于细粒度视觉分类和类不平衡缓解策略。

创建时间：

2024-07-05

原始信息汇总

数据集概述

基本信息

数据集名称: StanfordDogsImbalanced
样本数量: 19060
语言: 英语
大小类别: 10K<n<100K
任务类别: 图像分类
标签: fiftyone, image, image-classification

数据集描述

这是一个不平衡版本的Stanford Dogs数据集，旨在测试类别不平衡缓解技术，包括但不限于合成数据生成。该版本的数据集通过随机将原始数据集分割为训练集、验证集和测试集（60/20/20分割），并对15个随机选择的类别移除了所有但保留10个训练样本。

数据集结构

以下类别在训练集中仅有10个样本：

Australian_terrier
Saluki
Cardigan
standard_schnauzer
Eskimo_dog
American_Staffordshire_terrier
Lakeland_terrier
Lhasa
cocker_spaniel
Greater_Swiss_Mountain_dog
basenji
toy_terrier
Chihuahua
Walker_hound
Shih-Tzu
Newfoundland

引用

bibtex @inproceedings{KhoslaYaoJayadevaprakashFeiFei_FGVC2011, author = "Aditya Khosla and Nityananda Jayadevaprakash and Bangpeng Yao and Li Fei-Fei", title = "Novel Dataset for Fine-Grained Image Categorization", booktitle = "First Workshop on Fine-Grained Visual Categorization, IEEE Conference on Computer Vision and Pattern Recognition", 2011, month = "June", address = "Colorado Springs, CO", }

搜集汇总

数据集介绍

构建方式

Stanford-Dogs-Imbalanced数据集是基于经典的Stanford Dogs数据集构建的，旨在测试类别不平衡问题的缓解策略。该数据集通过对原始数据集进行随机划分，生成训练集、验证集和测试集，比例为60/20/20。为了模拟类别不平衡，研究者随机选择了15个类别，并在训练集中仅保留每个类别的10个样本，其余样本被移除。这种构建方式使得数据集在类别分布上呈现出显著的不平衡性，适用于研究合成数据生成等不平衡数据处理技术。

特点

Stanford-Dogs-Imbalanced数据集包含19,060个样本，涵盖了120种犬类的细粒度图像分类任务。其显著特点是15个类别的训练样本被限制为仅10个，这些类别包括澳大利亚梗犬、萨路基犬、卡迪根犬等。这种设计使得数据集在类别分布上具有明显的不平衡性，为研究类别不平衡问题提供了理想的实验环境。此外，数据集保留了原始Stanford Dogs数据集的高质量图像和精确标注，确保了数据的可靠性和实用性。

使用方法

使用Stanford-Dogs-Imbalanced数据集时，首先需安装FiftyOne库，并通过Hugging Face Hub加载数据集。加载后，用户可通过FiftyOne提供的API进行数据探索、分析和可视化。数据集支持细粒度图像分类任务，并可用于测试类别不平衡缓解策略，如数据增强、重采样或合成数据生成。通过FiftyOne的交互式界面，用户可以直观地查看数据分布、标注信息及模型预测结果，从而更好地理解数据特性并优化模型性能。

背景与挑战

背景概述

Stanford-Dogs-Imbalanced数据集是基于Stanford Dogs数据集的变体，旨在测试类别不平衡问题的缓解技术。该数据集由Stanford大学的研究团队于2011年首次发布，主要用于细粒度图像分类任务。通过随机划分原始数据集为训练集、验证集和测试集，并对15个随机选择的类别进行样本限制，该数据集为研究类别不平衡问题提供了实验基础。其核心研究问题在于如何通过合成数据生成等技术提升模型在类别不平衡情况下的分类性能，对计算机视觉领域的细粒度分类研究具有重要影响。

当前挑战

Stanford-Dogs-Imbalanced数据集面临的主要挑战包括两个方面。首先，在领域问题层面，细粒度图像分类本身具有较高的难度，尤其是在类别不平衡的情况下，模型容易偏向多数类，导致少数类的分类性能显著下降。其次，在数据集构建过程中，如何合理设计样本限制策略以模拟真实世界中的类别不平衡现象，同时确保数据集的代表性和多样性，是一个复杂的技术挑战。此外，数据集的标注质量、样本分布的合理性以及实验结果的复现性也是需要重点关注的问题。

常用场景

经典使用场景

Stanford-Dogs-Imbalanced数据集在图像分类领域中被广泛用于测试类别不平衡问题的缓解策略。该数据集通过对原始Stanford Dogs数据集进行随机分割，并在15个随机选择的类别中限制训练样本数量，模拟了现实世界中常见的类别不平衡现象。研究人员可以利用该数据集评估和开发新的数据增强技术、重采样方法以及合成数据生成算法，以提升模型在类别不平衡情况下的分类性能。

实际应用

在实际应用中，Stanford-Dogs-Imbalanced数据集可用于训练和优化细粒度图像分类模型，特别是在宠物识别、动物保护以及生物多样性监测等领域。例如，动物收容所可以利用该数据集训练模型，自动识别不同品种的犬类，从而更高效地管理动物信息。此外，该数据集还可用于开发智能相机或移动应用，帮助用户快速识别犬类品种，提升用户体验。

衍生相关工作

Stanford-Dogs-Imbalanced数据集衍生了许多经典的研究工作，主要集中在类别不平衡问题的解决策略上。例如，基于该数据集的研究提出了多种数据增强技术，如SMOTE（合成少数类过采样技术）和GAN（生成对抗网络）生成合成样本。此外，一些研究还探索了代价敏感学习算法和集成学习方法，以在不平衡数据分布下提升模型的分类性能。这些工作为后续的细粒度图像分类研究提供了重要的理论基础和实践指导。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集