FOCI (Fine-grained Object ClassIfication)

Name: FOCI (Fine-grained Object ClassIfication)
Creator: 维尔茨堡大学
Published: 2024-06-21 00:59:39
License: 暂无描述

arXiv2024-06-21 更新2024-06-24 收录

下载链接：

https://github.com/gregor-ge/FOCI-Benchmark

下载链接

链接失效反馈

官方服务：

资源简介：

FOCI是由维尔茨堡大学的研究团队创建的一个用于细粒度对象分类的基准数据集。该数据集整合了五个流行的分类数据集，并从ImageNet-21k中提取了四个特定领域的子集，涵盖了动物、植物、食品和人工制品等多个类别。FOCI的创建旨在通过多选题形式避免开放式问答任务中的答案模糊性，并利用CLIP模型挖掘负标签以保持分类难度。该数据集特别适用于测试大型视觉-语言模型在细粒度对象识别方面的能力，旨在解决现有模型在精确识别不同对象类别上的不足。

FOCI is a benchmark dataset for fine-grained object classification developed by a research team at the University of Würzburg. It integrates five popular classification datasets and extracts four domain-specific subsets from ImageNet-21k, covering categories including animals, plants, food, and artificial artifacts. The dataset is designed to avoid answer ambiguity inherent in open-ended question-and-answer tasks by adopting a multiple-choice format, and leverages the CLIP model to mine negative labels to maintain appropriate classification difficulty. This dataset is particularly well-suited for evaluating the fine-grained object recognition capabilities of large vision-language models, with the goal of addressing the shortcomings of existing models in accurately discriminating between different object categories.

提供机构：

维尔茨堡大学

创建时间：

2024-06-21

原始信息汇总

FOCI - 大型视觉语言模型细粒度对象分类基准

关于

我们提出了 FOCI，这是一个针对大型视觉语言模型（LVLMs）的细粒度对象分类基准。FOCI 将现有的图像分类数据集转化为明确的多个选择题。

使用基准

1. 准备数据

在开始之前，您需要下载并准备要使用的图像数据集。我们提供了一个指南这里。

2. 准备环境

我们建议至少使用 Python >=3.9。需求可以在 requirements.txt 中找到。我们使用了 PyTorch 2.2.1，但旧版本或新版本也可能适用。

3. 运行基准

我们提供了一个简单的 CLI 来运行基准，可以这样调用：

python run_ic_bench.py --model=google/paligemma-3b-mix-224 --dataset=stanford_cars --prompt_query=Which of these cars is shown in the image? --image_root=/media/gregor/cache1/icbench/stanfordcars/stanford_cars

可用的数据集包括 imagenet, imagenet-rendition, imagenet-adversarial, imagenet-sketch, food101, flowers102, fgvc_aircraft, stanford_cars, oxford_pet, geode, imagenet-6k-{animal|plant|food|artifact}。更多示例请参见我们的 scripts。

4. 评估结果

我们提供了一个 notebook 以便于评估 CLI 生成的结果。

5. 额外内容：测试新模型

我们的代码很容易扩展到新模型（尤其是如果它们使用 Hugging Face）：

基于参考 HfModel 或其他已实现的模型实现您的模型。
更新 model_template() 以提供您模型的指令模板。
更新 load_model() 以根据名称加载您的模型。

6. 额外内容：在新数据集上测试

我们的代码也很容易扩展到新的图像分类数据集：

实现一个加载器函数，该函数创建一个将标签映射到（相对）图像路径的字典，并将其添加到 DATASET_TO_LOADER。
完成。首次运行基准时，我们使用 CLIP 查找困难的多个选择选项并将其存储在 data 中，以供后续运行使用。

许可证与引用

这项工作基于 MIT 许可证。第三方软件和数据受其各自许可证的约束。如果您发现我们的代码/数据/模型或想法在您的研究中有用，请考虑引用该论文：

@article{geigle2024foci, author = {Gregor Geigle and Radu Timofte and Goran Glavav{s}}, title = {African or European Swallow? Benchmarking Large Vision-Language Models for Fine-Grained Object Classification}, journal = {arXiv}, volume = {abs/2406.14496}, year = {2024}, url = {https://arxiv.org/abs/2406.14496}, eprinttype = {arXiv}, eprint = {2406.14496}, }

搜集汇总

数据集介绍

构建方式

FOCI数据集的构建方式独特，它将现有的物体分类数据集转化为一个困难的细粒度物体分类的多选题基准。为了避免开放性问题回答中常见的歧义性，FOCI采用多选题的形式，为每个测试图像提供四个候选答案（即正确标签和三个最相似的错误标签）。为了保持分类的难度，研究人员使用CLIP模型从类标签池中挖掘负标签。FOCI数据集由五个流行的分类数据集（包括花朵、汽车、食物、飞机和宠物）以及从ImageNet-21k中提取的四个特定领域子集（动物、植物、食物和人造物体）组成。

特点

FOCI数据集的特点在于其细粒度物体分类任务的多选题形式，以及通过CLIP模型挖掘的困难选择，这使得任务更具挑战性。FOCI数据集的设计旨在评估大型视觉语言模型在细粒度物体分类方面的能力，从而填补了现有评估标准中的空白。此外，FOCI数据集的构建方式使得任务难度得以保持，即使候选答案数量有限，也不会使任务变得过于简单。

使用方法

使用FOCI数据集的方法涉及将LVLM应用于多选题任务。在测试时，LVLM会收到一个图像和四个候选答案，这些答案随机排列以避免模型对答案位置的偏好。LVLM的任务是预测正确的答案，并与其真实标签进行比较，从而评估其准确性。FOCI数据集的使用有助于研究人员评估和比较LVLM在细粒度物体分类任务上的性能，并研究影响模型性能的因素，如LLM的大小、图像编码器的质量以及训练数据的变化。

背景与挑战

背景概述

FOCI数据集，即细粒度物体分类数据集，是为了填补当前大型视觉语言模型（LVLM）在细粒度物体分类任务上的评估空白而创建的。该数据集由Gregor Geigle、Radu Timofte和Goran Glavaš于2024年6月提出，旨在评估LVLMs在细粒度物体识别方面的能力，例如区分不同动物物种。FOCI数据集从现有的物体分类数据集中创建，采用多项选择题的形式来避免开放性问题回答中的模糊性，并通过CLIP模型挖掘负标签来保持分类难度。FOCI数据集包含五个流行分类数据集的四个领域特定子集，为LVLMs提供了广泛的评估基准。

当前挑战

FOCI数据集相关的挑战主要包括：1) 细粒度物体分类的挑战，即LVLMs在区分相似物体类别时的能力；2) 构建过程中的挑战，包括如何有效地从现有数据集中挖掘出困难的选择项，以及如何将图像分类数据集转换为困难的多项选择题。此外，FOCI数据集还揭示了LVLMs在细粒度物体分类任务上的不足，例如，与CLIP模型相比，LVLMs的性能明显滞后，这表明LVLMs中的图像编码器和LLM之间的对齐不够精细，需要更多细粒度注释的（预）训练数据。

常用场景

经典使用场景

FOCI数据集是用于细粒度物体分类的基准测试，该数据集从现有的物体分类数据集中创建，旨在评估大型视觉语言模型（LVLMs）在细粒度物体分类任务上的能力。FOCI采用多选题形式，避免了开放性问题回答中的歧义，并通过CLIP模型挖掘负标签来保持分类难度。FOCI数据集涵盖了动物、植物、食物和人造物体等多个领域，为LVLMs提供了全面的评估。

衍生相关工作

FOCI数据集的提出衍生了一系列相关研究工作。这些研究工作主要关注LVLMs在细粒度物体分类任务上的性能改进和模型设计。例如，一些研究工作通过调整LVLMs的训练数据，增加细粒度物体分类的标注信息，来提高LVLMs在FOCI上的表现。另外一些研究工作则关注LVLMs的模型设计，例如通过改进图像编码器和解码器，来提高LVLMs在细粒度物体分类任务上的性能。这些相关研究工作有助于推动LVLMs在细粒度物体分类任务上的研究和发展，并为LVLMs在实际应用中的使用提供了重要的参考和指导。

数据集最近研究