KITSCH/miniimagenet-LT

Name: KITSCH/miniimagenet-LT
Creator: KITSCH
Published: 2023-04-09 13:30:42
License: 暂无描述

Hugging Face2023-04-09 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/KITSCH/miniimagenet-LT

下载链接

链接失效反馈

官方服务：

资源简介：

--- license: openrail --- # mini-imagenet-LT_longtail-dataset 长尾数据集的分类任务是一个较为常见的话题，但是数据集整理较为麻烦，并且有些数据集例如Imagenet-LT相对来说还是太多，算力不够的情况下做实验成本较高。因此我根据mini-Imagenet重新整理出了mini-Imagenet-LT长尾数据集。并且使用了RSG模型和stable diffusion扩充数据集两种方法进行性能上的对比。 RSG方法,allacc:72.62% headacc:75.91% middleacc:62.45% tailacc:50.83% SD方法,allacc:75.88% headacc:79.36% middleacc:64.31% tailacc:56.25% 数据集整理过程如下： 1.下载原始mini-imagenet数据集，其由从imagenet中抽取的100个类别的数据构成，每个类别600张图片，总计60000张图片。我们从每个类别的图像中抽取10%的测试集10%的验证集，剩下80%作为训练集。测试集和验证集会生成val.csv和test.csv两个表格文件，记录了路径和标签。 2.为了制作长尾数据集我们需要对训练集进行再抽样。我们对每个类别的训练数据集从中随机抽取10到480不等的数据构成了分布不均匀的长尾数据集，生成train.csv文件，每个类别的数据量记录在cls_label.json。 3.使用stable diffusion扩充我们的长尾数据集，讲每个类别的图片数量从10-480补齐到480张，生成的图片在genimages文件夹加，标签路径文件为gentrain.csv。具体生成方法我们使用图生图的方式，以某图片及其标签作为prompt对现在的图片轮流生成直到补齐480张为止。（由于seed的随机性或图片的问题，生成的图片有部分为损坏的纯黑图片，在下游任务中记得做筛选去除）。语义标签保存在classname.txt中。 The classification task of long-tail data sets is a relatively common topic, but the data set sorting is more troublesome, and some data sets such as Imagenet-LT are relatively too much, and the cost of experimentation is high when the computing power is not enough. So I rearranged the mini-Imagenet-LT long-tail dataset based on mini-Imagenet. And use the RSG model and stable diffusion to expand the data set two methods for performance comparison. RSG method, allacc: 72.62 headacc: 75.91 middleacc: 62.45 tailacc: 50.83 SD method, allacc: 75.88 headacc: 79.36 middleacc: 64.31 tailacc: 56.25 The process of organizing the data set is as follows: 1. Download the original mini-imagenet dataset, which consists of 100 categories of data extracted from imagenet, with 600 pictures for each category, and a total of 60,000 pictures. We sample 10% of the test set, 10% of the validation set, and the remaining 80% as the training set from images in each category. The test set and validation set will generate two table files, val.csv and test.csv, which record the path and label. 2. In order to make a long tail dataset we need to resample the training set. We randomly sampled 10 to 480 data from the training data set of each category to form an unevenly distributed long-tail data set, and generated a train.csv file. The data volume of each category is recorded in cls_label.json. 3. Use stable diffusion to expand our long-tail data set. The number of pictures in each category is filled from 10-480 to 480. The generated pictures are added in the genimages folder, and the label path file is gentrain.csv. For the specific generation method, we use the image generation method, using a certain image and its label as a prompt to generate the current images in turn until 480 images are completed. (Due to the randomness of the seed or the problem of the picture, some of the generated pictures are damaged pure black pictures, remember to filter and remove them in downstream tasks). Semantic tags are stored in classname.txt.

许可证：OpenRail # mini-imagenet-LT 长尾数据集长尾分类任务是计算机视觉领域较为常见的研究课题，但数据集整理工作往往较为繁琐；且部分现有数据集（如Imagenet-LT）样本体量整体偏大，在算力不足的场景下实验成本较高。为此，笔者基于mini-Imagenet重新构建了mini-imagenet-LT长尾数据集，并分别采用RSG模型与Stable Diffusion两种数据扩充方法开展性能对比实验。 RSG方法性能指标：整体准确率（allacc）72.62%，头部类别准确率75.91%，中部类别准确率62.45%，尾部类别准确率50.83% Stable Diffusion（SD）方法性能指标：整体准确率75.88%，头部类别准确率79.36%，中部类别准确率64.31%，尾部类别准确率56.25% 数据集构建流程如下： 1. 下载原始mini-Imagenet数据集：该数据集从ImageNet中抽取100个类别，每个类别含600张图像，总计60000张图像。我们从每个类别的图像中分别抽取10%作为测试集、10%作为验证集，剩余80%作为训练集。测试集与验证集将生成val.csv与test.csv两个表格文件，用于记录图像路径与类别标签。 2. 为构建长尾数据集，需对训练集进行重采样：我们从每个类别的训练数据中随机抽取10至480张样本，生成分布不均的长尾训练集，并生成train.csv文件；每个类别的样本量记录于cls_label.json文件中。 3. 使用Stable Diffusion扩充长尾数据集：将每个类别的样本量从10-480补全至480张。生成的图像存储于genimages文件夹中，对应的标签路径文件为gentrain.csv。具体生成方式采用图生图流程：以单张原始图像及其类别标签作为提示词（prompt），循环生成图像直至补全至480张。（由于种子的随机性或图像生成本身的问题，部分生成图像会出现损坏的纯黑画面，需在下游任务中进行筛选剔除）。语义类别标签存储于classname.txt文件中。

提供机构：

KITSCH

原始信息汇总

mini-imagenet-LT_longtail-dataset

数据集概述

数据集名称: mini-Imagenet-LT
数据集类型: 长尾数据集
数据集来源: 基于mini-Imagenet重新整理
数据集用途: 用于分类任务

数据集整理过程

原始数据集:
- 来源: 从Imagenet中抽取的100个类别的数据
- 每个类别包含600张图片，总计60000张图片
- 数据分割: 10%测试集，10%验证集，80%训练集
- 生成文件: val.csv, test.csv（记录路径和标签）
长尾数据集制作:
- 对训练集进行再抽样，每个类别随机抽取10到480张图片
- 生成文件: train.csv, cls_label.json（记录每个类别的数据量）
数据集扩充:
- 使用stable diffusion方法将每个类别的图片数量补齐到480张
- 生成文件: genimages文件夹, gentrain.csv（记录标签路径）
- 语义标签: classname.txt

性能对比

RSG方法:
- allacc: 72.62%
- headacc: 75.91%
- middleacc: 62.45%
- tailacc: 50.83%
SD方法:
- allacc: 75.88%
- headacc: 79.36%
- middleacc: 64.31%
- tailacc: 56.25%

搜集汇总

数据集介绍

构建方式

在计算机视觉领域，长尾分布数据集的构建对于研究类别不平衡问题至关重要。该数据集基于mini-Imagenet原始数据，首先从100个类别中各抽取10%的图像作为验证集与测试集，剩余80%构成训练集。随后，通过再抽样策略对训练集进行处理，从每个类别的训练数据中随机抽取10至480张不等的图像，形成具有显著长尾分布特性的训练集，并生成相应的标注文件。为进一步增强数据多样性，还采用了稳定扩散模型进行数据扩充，将各类别图像数量统一补齐至480张，生成图像存储于指定文件夹并附带标签路径文件。

使用方法

在机器学习研究中，该数据集主要用于长尾分类任务的模型训练与评估。使用者可加载train.csv、val.csv和test.csv文件以获取图像路径与标签，分别用于模型训练、超参数调优和最终测试。若使用稳定扩散生成的扩充数据，需从gentrain.csv读取路径，并在预处理阶段过滤可能存在的损坏图像。研究过程中，可通过cls_label.json分析类别分布，并参考提供的RSG与SD方法性能指标进行对比实验，以探索不同技术对长尾问题的缓解效果。

背景与挑战

背景概述

在计算机视觉领域，长尾分布问题一直是分类任务中的核心挑战，现实世界的数据往往呈现类别不均衡的特性，即少数类别拥有大量样本，而多数类别样本稀缺。为应对这一难题，研究者们致力于构建具有代表性的长尾数据集以推动算法创新。KITSCH/miniimagenet-LT数据集应运而生，由研究者在mini-Imagenet基础上重构而成，旨在提供一个计算资源需求较低、便于实验的长尾基准。该数据集源自ImageNet的子集，包含100个类别，通过精心设计的再抽样策略，模拟了从10到480不等的样本分布，有效支持了长尾学习领域的方法验证与比较。

当前挑战

该数据集致力于解决图像分类中长尾分布带来的挑战，即模型在样本稀缺的尾部类别上表现不佳，难以实现均衡的识别性能。构建过程中，研究者面临多重困难：首先，原始mini-Imagenet数据需经过复杂的再抽样处理，以生成符合长尾特性的训练集，确保分布既真实又可控；其次，利用稳定扩散技术进行数据扩充时，生成图像的质量参差不齐，部分损坏的纯黑图片需在下游任务中手动筛选，增加了预处理负担；此外，平衡数据集规模与计算成本也是一大难点，需在有限资源下维持实验的可行性。

常用场景

经典使用场景

在计算机视觉领域，长尾分布问题普遍存在于现实世界的数据中，其中少数类别拥有大量样本，而多数类别样本稀缺。miniimagenet-LT数据集通过重构mini-Imagenet，模拟了这种不平衡分布，为研究者提供了一个轻量化的实验平台。该数据集常用于评估分类模型在长尾场景下的性能，特别是测试模型对尾部类别的识别能力，成为长尾学习领域的基础基准之一。

解决学术问题

该数据集主要解决了长尾学习中的类别不平衡问题，为学术研究提供了可控的实验环境。通过模拟真实世界的数据分布，它帮助研究者探索如何提升模型在样本稀少类别上的泛化能力，缓解头部类别主导训练过程的偏差。其意义在于推动了平衡损失函数、数据增强和迁移学习等方法的创新，促进了公平且鲁棒的视觉识别系统的开发。

实际应用

在实际应用中，miniimagenet-LT数据集可服务于图像识别系统的优化，尤其是在资源受限或数据分布不均的场景下。例如，在医疗影像分析中，罕见病症的样本往往稀缺；在零售商品识别中，新品类的图片数量有限。该数据集帮助开发者测试和调整算法，确保模型在现实长尾环境中保持稳定性能，提升系统的实用性和可靠性。

数据集最近研究