visres_bench

Name: visres_bench
Creator: Technology Innovation Institute
Published: 2026-03-07 22:17:26
License: 暂无描述

Hugging Face2026-03-07 更新2026-03-08 收录

下载链接：

https://huggingface.co/datasets/tiiuae/visres_bench

下载链接

链接失效反馈

官方服务：

资源简介：

VisRes Bench 是一个多模态视觉推理基准数据集，涵盖29个任务类别和多个难度级别。每个任务提供两种提示风格（通用型和引导型），用于评估视觉语言模型在不同指令特异性下的表现。数据集包含38,956条样本，按不同任务分为多个配置（config），每个配置包含两个分割（generic_prompt和guided_prompt）。数据样本包含id、task、level、prompt_type、images、question和answer等字段，适用于视觉问答、图像到文本生成等视觉语言任务。数据集由TII UAE发布，遵循Apache-2.0许可。

提供机构：

Technology Innovation Institute

创建时间：

2026-03-07

原始信息汇总

VisRes Bench 数据集概述

基本信息

数据集名称: VisRes Bench
发布者: TII UAE
发布日期: 2025年
许可证: Apache-2.0
数据规模: 1K<n<10K (共 38,956 行数据)
访问地址: https://huggingface.co/datasets/tiiuae/visres_bench

任务与语言

任务类别: 视觉问答、图像到文本
核心功能: 多模态视觉推理基准测试
覆盖范围: 29个任务类别，涵盖多个难度级别
语言: 英语

数据集标签

benchmark
vision-language
multimodal
visual-reasoning

数据集结构

配置与划分

每个任务是一个独立的配置。
每个配置内包含两个划分：
- generic_prompt: 最小化、开放式提示，测试模型在没有提示情况下的推理能力。
- guided_prompt: 结构化、引导式提示，提供更多上下文和方向。

数据模式

列名	类型	描述
`id`	`string`	唯一行标识符
`task`	`string`	原始任务名称
`level`	`string`	难度级别 (例如 L1, L2, L3, L4)
`prompt_type`	`string`	`generic` 或 `guided`
`images`	`List[Image]`	一个或多个输入图像
`question`	`string`	向模型提出的问题
`answer`	`string`	真实答案

可用配置与数据量

配置名称	划分	行数
`level_1_global_occlusion_50percent`	`generic_prompt`	1,000
`level_1_global_occlusion_50percent`	`guided_prompt`	1,000
`level_1_global_occlusion_70percent`	`generic_prompt`	1,000
`level_1_global_occlusion_70percent`	`guided_prompt`	1,000
`level_1_global_occlusion_80percent`	`generic_prompt`	1,000
`level_1_global_occlusion_80percent`	`guided_prompt`	1,000
`level_1_edges_eval_6k_location_only_dino_mode_options`	`generic_prompt`	1,000
`level_1_edges_eval_6k_location_only_dino_mode_options`	`guided_prompt`	1,000
`level_1_eval_6k_location_only_random_sampling`	`generic_prompt`	1,000
`level_1_eval_6k_location_only_random_sampling`	`guided_prompt`	1,000
`level_1_eval_6k_brightness_dino_options`	`generic_prompt`	1,000
`level_1_eval_6k_brightness_dino_options`	`guided_prompt`	1,000
`level_1_eval_6k_blur_dino_options`	`generic_prompt`	1,000
`level_1_eval_6k_blur_dino_options`	`guided_prompt`	1,000
`level_1_eval_6k_rotation_direct_dino_options`	`generic_prompt`	1,000
`level_1_eval_6k_rotation_direct_dino_options`	`guided_prompt`	1,000
`level_1_eval_6k_single_rotation_same_options`	`generic_prompt`	1,000
`level_1_eval_6k_single_rotation_same_options`	`guided_prompt`	1,000
`level_1_edges_eval_6k_location_only_random_sampling`	`generic_prompt`	1,000
`level_1_edges_eval_6k_location_only_random_sampling`	`guided_prompt`	1,000
`level_1_eval_6k_location_only_dino_mode_options`	`generic_prompt`	1,000
`level_1_eval_6k_location_only_dino_mode_options`	`guided_prompt`	1,000
`l1_count_only`	`generic_prompt`	500
`l1_count_only`	`guided_prompt`	500
`l1_count_progression_mixed`	`generic_prompt`	500
`l1_count_progression_mixed`	`guided_prompt`	500
`l1_orientation_only`	`generic_prompt`	458
`l1_orientation_only`	`guided_prompt`	458
`l1_count_distribution_2same_1diff`	`generic_prompt`	500
`l1_count_distribution_2same_1diff`	`guided_prompt`	500
`l1_orientation_distribution_2same_1diff`	`generic_prompt`	498
`l1_orientation_distribution_2same_1diff`	`guided_prompt`	498
`l1_color_only`	`generic_prompt`	500
`l1_color_only`	`guided_prompt`	500
`l1_count_operations`	`generic_prompt`	500
`l1_count_operations`	`guided_prompt`	500
`l1_count_minmax`	`generic_prompt`	500
`l1_count_minmax`	`guided_prompt`	500
`l1_orientation_distribution`	`generic_prompt`	500
`l1_orientation_distribution`	`guided_prompt`	500
`l1_color_distribution_2same_1diff`	`generic_prompt`	500
`l1_color_distribution_2same_1diff`	`guided_prompt`	500
`l1_color_distribution`	`generic_prompt`	500
`l1_color_distribution`	`guided_prompt`	500
`l1_count_distribution`	`generic_prompt`	500
`l1_count_distribution`	`guided_prompt`	500
`l4_compositional_spiral_orientation`	`generic_prompt`	350
`l4_compositional_spiral_orientation`	`guided_prompt`	350
`l4_compositional_spiral_object_color`	`generic_prompt`	464
`l4_compositional_spiral_object_color`	`guided_prompt`	464
`l2_coupled_count_color`	`generic_prompt`	500
`l2_coupled_count_color`	`guided_prompt`	500
`l3_independent_color_object_orientation`	`generic_prompt`	355
`l3_independent_color_object_orientation`	`guided_prompt`	355
`l2_coupled_orientation_color`	`generic_prompt`	374
`l2_coupled_orientation_color`	`guided_prompt`	374
`l3_independent_distribution_arithmetic_object`	`generic_prompt`	479
`l3_independent_distribution_arithmetic_object`	`guided_prompt`	479

加载方式

加载特定任务

python from datasets import load_dataset ds = load_dataset("tiiuae/visres_bench", "l1_count_only") generic = ds["generic_prompt"] guided = ds["guided_prompt"]

直接加载单个划分

python ds = load_dataset("tiiuae/visres_bench", "l1_count_only", split="generic_prompt")

列出所有可用配置

python from datasets import get_dataset_config_names configs = get_dataset_config_names("tiiuae/visres_bench") print(configs)

引用格式

bibtex @dataset{visres_bench, title = {VisRes Bench}, author = {TII UAE}, year = {2025}, publisher = {Hugging Face}, url = {https://huggingface.co/datasets/tiiuae/visres_bench} }

搜集汇总

数据集介绍

构建方式

在视觉语言模型评估领域，VisRes Bench的构建体现了系统化的设计理念。该数据集通过定义四个渐进式难度层级（L1至L4），并围绕计数、颜色、方向等核心视觉概念，精心设计了29种任务类别。每个任务均生成了两种不同引导程度的提示文本——通用提示与引导提示，从而形成对比性的评估环境。数据生成过程融合了程序化合成与可控的视觉变换，例如全局遮挡、边缘检测、亮度调整和旋转操作，确保了任务在保持语义一致性的同时，具备可量化的复杂度梯度。

使用方法

使用VisRes Bench进行模型评估，需依托Hugging Face的`datasets`库。研究者首先可通过`get_dataset_config_names`函数列举所有可用的任务配置。加载特定任务时，使用`load_dataset`函数并指定数据集路径与配置名称，即可获取包含`generic_prompt`和`guided_prompt`分割的数据对象。数据模式包含图像列表、问题文本与标准答案等关键字段，支持对视觉问答与图像描述模型进行端到端的性能评测。这种模块化的访问方式便于进行跨任务、跨难度的系统性比较研究。

背景与挑战

背景概述

在视觉语言模型快速发展的背景下，多模态推理能力的系统性评估成为关键研究议题。VisRes Bench由阿联酋技术创新研究院于2025年发布，作为涵盖29类任务的综合性视觉推理基准，其核心在于探究模型在多层次复杂度任务中的泛化与组合推理能力。该数据集通过四个渐进难度等级的结构化设计，系统评估模型对颜色、计数、方向等基础视觉概念的掌握程度，以及对遮挡、亮度变化等干扰因素的鲁棒性，为视觉语言智能的演进提供了精细化评估框架。

当前挑战

该数据集致力于解决视觉问答领域中模型组合推理与鲁棒性评估的核心挑战，具体体现为模型在多重属性耦合、长链逻辑推导及抗干扰感知等方面的能力欠缺。构建过程中的挑战主要源于任务体系的设计复杂性，需在保持概念纯净度的同时实现难度梯度自然过渡，并确保不同提示类型下的评估一致性。此外，合成数据的真实性与多样性平衡，以及标注过程中对组合语义的精确捕捉，均为数据集构建带来显著难度。

常用场景

经典使用场景

在视觉语言模型评估领域，VisRes Bench作为一项多模态视觉推理基准，其经典使用场景在于系统性地评测模型在多样化任务上的表现。该数据集通过涵盖计数、颜色、方向、分布及组合推理等29类任务，并设置从L1到L4的难度梯度，为研究者提供了一个层次化的评估框架。模型在通用提示与引导提示两种设置下接受测试，能够全面考察其从基础感知到复杂逻辑推理的能力边界，从而成为衡量模型视觉理解深度的标准工具。

解决学术问题

VisRes Bench致力于解决多模态人工智能中关于模型鲁棒性与泛化能力的核心学术问题。传统视觉问答数据集往往在任务类型或干扰因素上较为单一，难以精确诊断模型弱点。该数据集通过引入全局遮挡、亮度变化、模糊处理及旋转等多种图像扰动，以及耦合与独立的概念组合任务，系统地揭示了模型在对抗性环境与组合推理中的失败模式。其意义在于为模型可解释性研究提供了细粒度的分析数据，推动了更具鲁棒性的视觉推理架构的发展。

实际应用

在实际应用层面，VisRes Bench所评测的能力直接关联到诸多下游场景。例如，在自动驾驶系统中，模型需要从部分遮挡或低光照的图像中准确识别物体数量与方位；在医疗影像分析中，需对模糊或旋转的扫描图像进行可靠的特征提取与关系推理；而在交互式机器人或教育辅助工具中，系统需根据用户提供的不同详细程度的指令（对应通用与引导提示）完成视觉任务。该数据集的评估结果有助于筛选和优化适用于这些严苛现实环境的视觉语言模型。

数据集最近研究