FG-BMK

Name: FG-BMK
Creator: 东南大学计算机科学与工程学院, 中国
Published: 2025-04-21 17:30:41
License: 暂无描述

arXiv2025-04-21 更新2025-04-23 收录

下载链接：

https://github.com/SEU-VIPGroup/FG-BMK

下载链接

链接失效反馈

官方服务：

资源简介：

FG-BMK是由东南大学计算机科学与工程学院创建的细粒度图像任务评估基准，包含3.49百万问题和3.32百万图像，旨在评估大型视觉语言模型在细粒度图像任务上的性能。该数据集汇集了来自12个知名细粒度数据集的图像，通过两种评估方式——面向人类的评估和面向机器的评估，全面检验模型的细粒度特征表示和语义识别能力。

FG-BMK is a fine-grained image task evaluation benchmark developed by the School of Computer Science and Engineering, Southeast University. It encompasses 3.49 million questions and 3.32 million images, and is designed to evaluate the performance of large vision-language models on fine-grained image tasks. This dataset aggregates images from 12 well-known fine-grained datasets, and comprehensively examines the fine-grained feature representation and semantic recognition capabilities of models through two evaluation approaches: human-oriented evaluation and machine-oriented evaluation.

提供机构：

东南大学计算机科学与工程学院, 中国

创建时间：

2025-04-21

搜集汇总

数据集介绍

构建方式

FG-BMK数据集通过整合12个细粒度视觉数据集构建而成，涵盖鸟类、犬类、飞行器等12个超类别的3.32万张图像和3.49万道问题。数据构建采用双轨评估范式：人类导向评估通过对话式交互设计真值判断、多选和简答三类问题，考察模型对细粒度语义的理解；机器导向评估则基于图像检索和分类任务，采用mAP和Top-1准确率指标量化视觉特征的判别性。为确保数据质量，所有图像均来自权威细粒度数据集，并通过分层抽样策略平衡不同粒度层级的样本分布。

使用方法

使用FG-BMK需遵循标准化流程：对于人类导向评估，输入图像和问题模板生成测试集，通过对话API获取模型响应并与标注答案比对；机器导向评估需提取视觉特征，在检索任务中计算查询图与候选图的余弦相似度，在分类任务中训练线性分类器。评估时需区分单超类别和跨超类别两种模式，后者需合并多个数据集训练以测试泛化性。该数据集支持8种主流LVLM的基准测试，提供开源代码实现特征对齐、扰动注入等分析工具，建议配合Nemenyi检验进行模型性能的统计显著性分析。

背景与挑战

背景概述

FG-BMK数据集由东南大学、北京大学和哥本哈根大学的研究团队于2025年推出，旨在填补大规模视觉语言模型（LVLMs）在细粒度图像任务评估方面的空白。该数据集包含349万问题和332万图像，系统地从人机交互和机器特征表示两个维度评估LVLMs的语义识别与细粒度特征表征能力。作为计算机视觉领域的基础性问题，细粒度图像分析涉及对下属类别层次的视觉对象识别，而FG-BMK的建立为理解LVLMs在此类任务中的能力边界提供了首个系统性评估基准，对推动多模态模型的精细化发展具有重要意义。

当前挑战

FG-BMK数据集面临的挑战主要体现在两个方面：领域问题层面，细粒度图像分类需解决高度相似的子类别区分难题（如不同鸟类物种的细微视觉差异），这对模型的局部特征捕捉和领域知识推理提出极高要求；数据构建层面，需平衡12个源数据集间的标注异构性（如CUB-200-2011的鸟类属性与Stanford Cars的车辆部件标注），同时确保349万问题的语义多样性与逻辑严密性。实验揭示LVLMs在对比训练范式下的特征判别性优于生成式方法，但视觉-文本特征对齐过程中的粒度失配问题仍导致性能下降7.41%，凸显细粒度跨模态对齐的核心难点。

常用场景

经典使用场景

FG-BMK数据集作为细粒度视觉任务的评估基准，主要用于测试大型视觉语言模型（LVLMs）在细粒度图像识别和检索任务中的表现。通过包含349万个问题和332万张图像，该数据集为研究者提供了一个全面的测试平台，以评估模型在语义识别和细粒度特征表示方面的能力。

解决学术问题

FG-BMK数据集解决了细粒度视觉任务评估的空白问题，为研究者提供了系统评估LVLMs在细粒度图像任务中的能力边界。通过对比不同训练范式、模态对齐和扰动敏感性等因素对任务性能的影响，该数据集揭示了当前LVLMs在细粒度任务中的局限性，为未来模型设计和数据构建提供了重要指导。

实际应用

FG-BMK数据集的实际应用场景包括生物多样性监测、对象检索和产品推荐等领域。这些应用需要模型能够识别和区分高度相似的视觉对象，FG-BMK通过其全面的评估任务和多样化的数据集，为这些实际应用提供了可靠的模型性能评估工具。

数据集最近研究