five

Few-Class Arena (FCA)

收藏
arXiv2024-11-02 更新2024-11-06 收录
下载链接:
https://github.com/fewclassarena/fca
下载链接
链接失效反馈
官方服务:
资源简介:
Few-Class Arena (FCA) 是一个专注于测试少数类别图像分类模型效率的统一基准。该数据集由斯托尼布鲁克大学和诺基亚贝尔实验室创建,旨在填补多类别数据集与实际应用中少数类别需求之间的差距。数据集包含从2到1000个类别的ImageNet子集,涵盖了广泛的卷积神经网络和Transformer架构。创建过程中,通过MMPreTrain框架自动加载图像和标签,确保数据的高效利用。FCA的应用领域主要集中在少数类别场景下的模型选择和评估,旨在提高模型在实际应用中的性能和效率。

Few-Class Arena (FCA) is a unified benchmark focused on testing the efficiency of few-class image classification models. Developed by Stony Brook University and Nokia Bell Labs, it aims to bridge the gap between multi-class datasets and the demand for few-class scenarios in real-world applications. The dataset includes ImageNet subsets ranging from 2 to 1000 classes, covering a broad spectrum of convolutional neural network (CNN) and Transformer architectures. During its construction, the MMPreTrain framework was employed to automatically load images and labels, ensuring efficient utilization of the dataset. The primary application areas of FCA center on model selection and evaluation under few-class settings, with the goal of enhancing the performance and efficiency of models in real-world deployments.
提供机构:
斯托尼布鲁克大学, 诺基亚贝尔实验室
创建时间:
2024-11-02
原始信息汇总

Few-Class Arena 数据集概述

简介

Few-Class-Arena (FCA) 是一个基于 PyTorch 的开源平台,构建在 OpenMMLab 项目之上。它提供了一个用于在少类分类和检测系统(通常类别数 <10)中进行研究的工具箱。FCA 封装了每个实验的底层繁琐编码和配置,并提供了一个方便的接口,使用户能够批量进行大规模实验。通过省略手动进行实验和独立收集每个实验结果的步骤,FCA 为研究人员节省了大量时间。用户可以通过指定不同任务的配置(包括训练和评估)来享受这些功能。

主要特点

  • 批量下载大型数据集上的预训练权重
  • 自动生成训练脚本
  • 使用各种规格(包括架构、权重和类别数)训练和评估模型
  • 收集具有各种规格的实验结果

数据集

FCA 支持以下数据集:

  • Caltech101
  • Caltech256
  • CIFAR100
  • CUB200
  • Food101
  • GTSRB43
  • Indoor67
  • SUN397
  • Textures47

对于 ImageNet1K,请参考 LSVRC2012

数据集格式

数据集格式遵循 ImageNet 的惯例,包含 metatrainval 目录。每个 .txt 文件存储图像 ID 和类别编号对。

数据集转换

用户可以通过指定 meta_data_root 和数据集的类别数来转换数据集格式。

模型训练与评估

FCA 提供了 FCA-FullFCA-Sub 两种模式来训练和评估模型。FCA-Full 用于评估在完整数据集上预训练的模型,而 FCA-Sub 用于在子集上训练和评估模型。

结果保存

训练和评估结果将保存在 ./work_dirs/ 目录下,具体路径根据任务类型和时间戳生成。

贡献

我们欢迎所有对 Few-Class-Arena 的改进贡献。请 fork 此仓库并提交 pull request,我们将审查并合并这些更改。

许可证

本项目基于 Apache 2.0 许可证 发布。

搜集汇总
数据集介绍
main_image_url
构建方式
Few-Class Arena (FCA) 数据集的构建方式着重于测试高效图像分类模型在少数类别场景下的表现。该数据集通过系统地评估 ResNet 家族在 ImageNet 子集上的训练,从 2 到 1000 个类别,并测试了一系列卷积神经网络和 Transformer 架构在十个数据集上的表现。此外,FCA 引入了一个基于类别相似性的难度测量方法,以辅助模型和数据集的预评估。FCA 的设计旨在提供一个用户友好的工具,能够轻松扩展到新的模型和数据集,从而促进未来在该领域的研究工作。
特点
Few-Class Arena (FCA) 数据集的主要特点在于其专注于少数类别场景下的模型评估,填补了现有大型多类别数据集与实际应用中少数类别需求之间的空白。FCA 通过引入类别相似性作为数据集难度的反向测量,提供了一种新颖的评估方法。此外,FCA 的设计具有高度的通用性和扩展性,用户可以轻松地将自定义模型和数据集集成到该框架中,从而推动少数类别场景下的机器学习研究。
使用方法
Few-Class Arena (FCA) 数据集的使用方法包括三个主要部分:首先,用户可以选择在全数据集上训练的模型进行评估(FC-Full),其次,用户可以在子集上训练模型并进行评估(FC-Sub),最后,用户可以通过相似性基准(FC-Sim)来评估图像相似性方法及其与模型性能的相关性。FCA 提供了详细的配置文件和自动化训练测试流程,用户只需指定模型、数据集和类别数量等参数,即可轻松启动数百个实验,大大减少了人工操作的复杂性。
背景与挑战
背景概述
Few-Class Arena (FCA) 数据集由 Stony Brook University 和 Nokia Bell Labs 的研究人员于 2024 年提出,旨在解决在少类别场景下高效选择视觉模型和测量数据集难度的挑战。传统的视觉模型评估通常基于多类别数据集,如 ImageNet,但实际应用中往往涉及的类别数量较少(2-10 类)。FCA 通过系统评估 ResNet 家族在 ImageNet 子集上的表现,以及测试多种卷积神经网络和 Transformer 架构在十个数据集上的性能,提供了一个新的工具来评估少类别场景下的模型效率。此外,FCA 还引入了一个基于类别相似性的难度测量方法,以帮助更高效地选择模型。
当前挑战
FCA 数据集面临的挑战主要包括两个方面:一是解决从多类别数据集到少类别应用的性能预测问题,这需要重新评估已发布的模型或进行昂贵的架构搜索;二是构建过程中遇到的挑战,如如何在不生成冗余数据的情况下高效地准备少类别数据集,以及如何设计一个能够自动进行训练和测试的工具。此外,FCA 还需要解决在少类别场景下模型性能的不确定性问题,以及如何通过引入新的难度测量方法来提高模型选择的效率。
常用场景
经典使用场景
Few-Class Arena (FCA) 数据集的经典使用场景主要集中在测试和评估针对少数类别的图像分类模型。由于现实世界中的应用通常涉及的类别数量较少(2-10个),而现有的许多数据集包含大量类别(80-1000个),FCA 提供了一个统一的基准,用于在少数类别场景下测试模型的效率。通过使用 FCA,研究人员可以系统地评估 ResNet 家族和其他卷积神经网络及 Transformer 架构在不同类别数量下的性能,从而更好地预测模型在实际应用中的表现。
衍生相关工作
FCA 数据集的提出催生了一系列相关的经典工作。首先,FCA 促进了针对少数类别场景的模型设计和优化研究,推动了轻量级模型架构的发展。其次,FCA 引入的类别相似性测量方法为数据集难度的评估提供了新的工具,激发了更多关于数据集特征和模型性能之间关系的研究。此外,FCA 的大规模实验和分析为少数类别场景下的模型选择和性能预测提供了宝贵的数据和见解,为后续研究奠定了基础。
数据集最近研究
最新研究方向
Few-Class Arena (FCA) 数据集的最新研究方向主要集中在高效视觉模型和数据集难度测量的基准测试上。该数据集旨在填补现有大规模多类别数据集与实际应用中少类别场景之间的空白。研究者们通过系统评估 ResNet 家族在 ImageNet 子集上的表现,以及测试多种卷积神经网络和 Transformer 架构在十个数据集上的性能,探索了在少类别场景下的模型选择和数据集难度的测量方法。此外,研究还引入了一种基于类别相似性的难度测量方法,以提高模型选择的效率。FCA 工具的开发不仅为少类别场景下的机器学习研究提供了新的工具,还为未来研究提供了可扩展的平台。
相关研究论文
  • 1
    Few-Class Arena: A Benchmark for Efficient Selection of Vision Models and Dataset Difficulty Measurement斯托尼布鲁克大学, 诺基亚贝尔实验室 · 2024年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作