VLM-SubtleBench

github2026-03-10 更新2026-03-12 收录

下载链接：

https://github.com/krafton-ai/VLM-SubtleBench

下载链接

链接失效反馈

官方服务：

资源简介：

VLM-SubtleBench是一个用于评估视觉语言模型（VLMs）在细微比较推理能力的基准数据集：即识别视觉相似图像对之间细微差异的能力。与之前强调显著变化的比较基准不同，VLM-SubtleBench专注于现实场景中常见的细微变化。该基准涵盖了10种差异类型（属性、状态、情感、时间、空间、存在、数量、质量、视角和动作）并跨越多个领域（自然、工业、医疗、航空和合成图像）。它支持多项选择和自由形式评估，能够系统地分析当前VLMs在不同差异类型和领域中的表现。

VLM-SubtleBench is a benchmark dataset for evaluating the fine-grained comparative reasoning capabilities of Vision-Language Models (VLMs), specifically their ability to identify subtle differences between visually similar image pairs. Unlike previous comparative benchmarks that emphasize prominent changes, VLM-SubtleBench focuses on subtle variations commonly encountered in real-world scenarios. This benchmark covers 10 types of differences (attribute, state, emotion, temporal, spatial, existence, quantity, quality, perspective, and action) and spans multiple domains including nature, industrial, medical, aerospace, and synthetic images. It supports both multiple-choice and free-form evaluations, enabling systematic analysis of the performance of current VLMs across different difference types and domains.

创建时间：

2026-03-03

原始信息汇总

VLM-SubtleBench 数据集概述

数据集基本信息

数据集名称：VLM-SubtleBench
核心目标：评估视觉语言模型（VLMs）在细微比较推理上的能力，即识别视觉相似图像对之间细微差异的能力。
主要特点：与以往强调显著变化的比较基准不同，本数据集专注于现实场景中至关重要的细微变化。

数据集内容与结构

差异类型：涵盖 10 种差异类型，包括属性（Attribute）、状态（State）、情感（Emotion）、时间（Temporal）、空间（Spatial）、存在（Existence）、数量（Quantity）、质量（Quality）、视角（Viewpoint）和动作（Action）。
覆盖领域：涵盖多样化领域，包括自然（natural）、工业（industrial）、医疗（medical）、航空（aerial）和合成（synthetic）图像。
评估形式：支持多项选择和自由形式两种评估方式。
数据划分：包含 test 和 val 划分。

数据获取与使用

下载地址：可通过 Hugging Face 获取：https://huggingface.co/datasets/KRAFTON/VLM-SubtleBench
本地路径：代码默认期望数据集位于项目根目录的 VLM-SubtleBench/ 文件夹下。
数据过滤：可根据划分（split）、类别（category）和领域（domain）对数据项进行过滤。自由形式评估仅使用 has_caption == true 的数据项。

评估与实验支持

评估脚本：提供 evaluate_multiple_choice.py 和 evaluate_free_form.py 脚本分别进行多项选择和自由形式评估。
配置方式：使用 configs/ 目录下的 YAML 文件和命令行参数进行配置。
模型支持：支持通过 API 调用云端模型（如 GPT-4o, Claude, Gemini）或通过 OpenAI 兼容的 API 本地部署模型（如使用 SGLang、vLLM 框架）。
提示类型：支持多种提示模板，包括标准（standard）、无推理（no_reasoning）、相机增强（camera_augmented）、拼接（concatenated）、网格（grid）、重叠（overlapped）和差分（substract）。

结果输出

保存路径：结果保存在 logs/<evaluator_type>/<model>/<prompt_type>/<dataset>/<timestamp>/ 目录下。
输出文件：包含执行日志（run.log）和评估结果文件（如 mc_evaluation_results.json）。

搜集汇总

数据集介绍

构建方式

在视觉语言模型评估领域，VLM-SubtleBench的构建旨在系统化地衡量模型对细微差异的感知与推理能力。该数据集通过精心设计涵盖属性、状态、情感、时空、存在、数量、质量、视角及动作等十种差异类型，并广泛覆盖自然、工业、医疗、航拍与合成图像等多重领域，确保了评估的全面性与现实相关性。数据收集过程注重图像对的视觉相似性，强调不易察觉的细微变化，从而构建了一个专注于挑战模型极限的基准测试集合。

特点

VLM-SubtleBench的核心特征在于其专注于细微比较推理，与以往强调显著差异的基准形成鲜明对比。数据集包含十种精心定义的差异类别，跨越五个不同领域，提供了丰富的评估维度。其支持多项选择与自由形式两种评估模式，允许研究者从结构化答案生成与开放式描述两个角度全面分析模型性能。这种设计使得该基准不仅能够量化模型的准确率，还能深入探究其在复杂场景下的推理能力与局限性。

使用方法

使用VLM-SubtleBench进行评估时，研究者需首先配置Python环境并安装相应依赖。数据集可从Hugging Face平台获取，并通过命令行参数灵活指定数据路径、划分、类别与领域等过滤条件。评估脚本支持调用云端API（如OpenAI、Gemini）或本地部署的模型，通过YAML配置文件与命令行覆盖实现高度定制化。运行后，结果与日志将自动保存至结构化目录中，便于后续分析与比较。

背景与挑战

背景概述

在视觉语言模型（VLMs）快速发展的背景下，模型对图像内容的理解与推理能力成为评估其智能水平的关键。然而，现有评测基准多关注显著差异的识别，忽略了现实场景中普遍存在的细微变化。为此，KRAFTON研究机构于2024年推出了VLM-SubtleBench数据集，旨在系统评估模型在‘细微比较推理’方面的能力。该数据集聚焦于十种差异类型，涵盖自然、工业、医学等多个领域，通过构建视觉高度相似的图像对，挑战模型捕捉属性、状态、情感等微妙变化的核心研究问题，为推进VLMs向人类级细致推理迈进提供了重要的评测工具。

当前挑战

VLM-SubtleBench所针对的领域挑战在于，当前视觉语言模型在识别图像间细微差异方面仍存在显著局限，这类能力对于医疗诊断、工业检测等实际应用至关重要。数据集的构建过程同样面临多重困难：一是需要精心设计涵盖十种差异类型且视觉相似度极高的图像对，确保差异的微妙性与真实性；二是需跨越自然、合成等多个领域收集或生成高质量数据，保证评测的广度与生态效度；三是在标注过程中，如何准确界定并描述细微变化，避免引入主观偏差，构成了数据质量控制的挑战。

常用场景

经典使用场景

在视觉语言模型评估领域，VLM-SubtleBench作为一项专注于细微比较推理的基准测试，其经典使用场景在于系统性地评估模型在识别视觉相似图像对之间精细差异的能力。该数据集通过涵盖属性、状态、情感、时空等十种差异类型，并跨越自然、工业、医疗等多个领域，为研究者提供了一个标准化的测试平台，用以衡量模型在复杂现实场景中的感知与推理精度。

实际应用

在实际应用层面，VLM-SubtleBench所针对的细微比较推理能力在医疗影像分析、工业质检、自动驾驶环境感知等领域具有重要价值。例如，在医疗诊断中，模型需要识别病灶的微小演变；在制造业中，需检测产品的细微缺陷。该数据集通过模拟这些高精度需求场景，为开发可靠的应用型视觉语言系统提供了必要的评估依据。

衍生相关工作

围绕VLM-SubtleBench，学术界已衍生出一系列探索模型细微推理机制的研究工作。这些工作通常聚焦于设计新型的提示策略、改进模型架构或开发专门的训练方法，以提升模型在细微差异识别上的表现。同时，该数据集也促进了跨模态理解、人类认知对齐等研究方向的发展，成为推动视觉语言模型向更高层次智能演进的重要催化剂。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集