five

visres_bench

收藏
Hugging Face2026-03-07 更新2026-03-08 收录
下载链接:
https://huggingface.co/datasets/tiiuae/visres_bench
下载链接
链接失效反馈
官方服务:
资源简介:
VisRes Bench 是一个多模态视觉推理基准数据集,涵盖29个任务类别和多个难度级别。每个任务提供两种提示风格(通用型和引导型),用于评估视觉语言模型在不同指令特异性下的表现。数据集包含38,956条样本,按不同任务分为多个配置(config),每个配置包含两个分割(generic_prompt和guided_prompt)。数据样本包含id、task、level、prompt_type、images、question和answer等字段,适用于视觉问答、图像到文本生成等视觉语言任务。数据集由TII UAE发布,遵循Apache-2.0许可。
提供机构:
Technology Innovation Institute
创建时间:
2026-03-07
原始信息汇总

VisRes Bench 数据集概述

基本信息

  • 数据集名称: VisRes Bench
  • 发布者: TII UAE
  • 发布日期: 2025年
  • 许可证: Apache-2.0
  • 数据规模: 1K<n<10K (共 38,956 行数据)
  • 访问地址: https://huggingface.co/datasets/tiiuae/visres_bench

任务与语言

  • 任务类别: 视觉问答、图像到文本
  • 核心功能: 多模态视觉推理基准测试
  • 覆盖范围: 29个任务类别,涵盖多个难度级别
  • 语言: 英语

数据集标签

  • benchmark
  • vision-language
  • multimodal
  • visual-reasoning

数据集结构

配置与划分

  • 每个任务是一个独立的配置
  • 每个配置内包含两个划分
    • generic_prompt: 最小化、开放式提示,测试模型在没有提示情况下的推理能力。
    • guided_prompt: 结构化、引导式提示,提供更多上下文和方向。

数据模式

列名 类型 描述
id string 唯一行标识符
task string 原始任务名称
level string 难度级别 (例如 L1, L2, L3, L4)
prompt_type string genericguided
images List[Image] 一个或多个输入图像
question string 向模型提出的问题
answer string 真实答案

可用配置与数据量

配置名称 划分 行数
level_1_global_occlusion_50percent generic_prompt 1,000
level_1_global_occlusion_50percent guided_prompt 1,000
level_1_global_occlusion_70percent generic_prompt 1,000
level_1_global_occlusion_70percent guided_prompt 1,000
level_1_global_occlusion_80percent generic_prompt 1,000
level_1_global_occlusion_80percent guided_prompt 1,000
level_1_edges_eval_6k_location_only_dino_mode_options generic_prompt 1,000
level_1_edges_eval_6k_location_only_dino_mode_options guided_prompt 1,000
level_1_eval_6k_location_only_random_sampling generic_prompt 1,000
level_1_eval_6k_location_only_random_sampling guided_prompt 1,000
level_1_eval_6k_brightness_dino_options generic_prompt 1,000
level_1_eval_6k_brightness_dino_options guided_prompt 1,000
level_1_eval_6k_blur_dino_options generic_prompt 1,000
level_1_eval_6k_blur_dino_options guided_prompt 1,000
level_1_eval_6k_rotation_direct_dino_options generic_prompt 1,000
level_1_eval_6k_rotation_direct_dino_options guided_prompt 1,000
level_1_eval_6k_single_rotation_same_options generic_prompt 1,000
level_1_eval_6k_single_rotation_same_options guided_prompt 1,000
level_1_edges_eval_6k_location_only_random_sampling generic_prompt 1,000
level_1_edges_eval_6k_location_only_random_sampling guided_prompt 1,000
level_1_eval_6k_location_only_dino_mode_options generic_prompt 1,000
level_1_eval_6k_location_only_dino_mode_options guided_prompt 1,000
l1_count_only generic_prompt 500
l1_count_only guided_prompt 500
l1_count_progression_mixed generic_prompt 500
l1_count_progression_mixed guided_prompt 500
l1_orientation_only generic_prompt 458
l1_orientation_only guided_prompt 458
l1_count_distribution_2same_1diff generic_prompt 500
l1_count_distribution_2same_1diff guided_prompt 500
l1_orientation_distribution_2same_1diff generic_prompt 498
l1_orientation_distribution_2same_1diff guided_prompt 498
l1_color_only generic_prompt 500
l1_color_only guided_prompt 500
l1_count_operations generic_prompt 500
l1_count_operations guided_prompt 500
l1_count_minmax generic_prompt 500
l1_count_minmax guided_prompt 500
l1_orientation_distribution generic_prompt 500
l1_orientation_distribution guided_prompt 500
l1_color_distribution_2same_1diff generic_prompt 500
l1_color_distribution_2same_1diff guided_prompt 500
l1_color_distribution generic_prompt 500
l1_color_distribution guided_prompt 500
l1_count_distribution generic_prompt 500
l1_count_distribution guided_prompt 500
l4_compositional_spiral_orientation generic_prompt 350
l4_compositional_spiral_orientation guided_prompt 350
l4_compositional_spiral_object_color generic_prompt 464
l4_compositional_spiral_object_color guided_prompt 464
l2_coupled_count_color generic_prompt 500
l2_coupled_count_color guided_prompt 500
l3_independent_color_object_orientation generic_prompt 355
l3_independent_color_object_orientation guided_prompt 355
l2_coupled_orientation_color generic_prompt 374
l2_coupled_orientation_color guided_prompt 374
l3_independent_distribution_arithmetic_object generic_prompt 479
l3_independent_distribution_arithmetic_object guided_prompt 479

加载方式

加载特定任务

python from datasets import load_dataset ds = load_dataset("tiiuae/visres_bench", "l1_count_only") generic = ds["generic_prompt"] guided = ds["guided_prompt"]

直接加载单个划分

python ds = load_dataset("tiiuae/visres_bench", "l1_count_only", split="generic_prompt")

列出所有可用配置

python from datasets import get_dataset_config_names configs = get_dataset_config_names("tiiuae/visres_bench") print(configs)

引用格式

bibtex @dataset{visres_bench, title = {VisRes Bench}, author = {TII UAE}, year = {2025}, publisher = {Hugging Face}, url = {https://huggingface.co/datasets/tiiuae/visres_bench} }

搜集汇总
数据集介绍
构建方式
在视觉语言模型评估领域,VisRes Bench的构建体现了系统化的设计理念。该数据集通过定义四个渐进式难度层级(L1至L4),并围绕计数、颜色、方向等核心视觉概念,精心设计了29种任务类别。每个任务均生成了两种不同引导程度的提示文本——通用提示与引导提示,从而形成对比性的评估环境。数据生成过程融合了程序化合成与可控的视觉变换,例如全局遮挡、边缘检测、亮度调整和旋转操作,确保了任务在保持语义一致性的同时,具备可量化的复杂度梯度。
使用方法
使用VisRes Bench进行模型评估,需依托Hugging Face的`datasets`库。研究者首先可通过`get_dataset_config_names`函数列举所有可用的任务配置。加载特定任务时,使用`load_dataset`函数并指定数据集路径与配置名称,即可获取包含`generic_prompt`和`guided_prompt`分割的数据对象。数据模式包含图像列表、问题文本与标准答案等关键字段,支持对视觉问答与图像描述模型进行端到端的性能评测。这种模块化的访问方式便于进行跨任务、跨难度的系统性比较研究。
背景与挑战
背景概述
在视觉语言模型快速发展的背景下,多模态推理能力的系统性评估成为关键研究议题。VisRes Bench由阿联酋技术创新研究院于2025年发布,作为涵盖29类任务的综合性视觉推理基准,其核心在于探究模型在多层次复杂度任务中的泛化与组合推理能力。该数据集通过四个渐进难度等级的结构化设计,系统评估模型对颜色、计数、方向等基础视觉概念的掌握程度,以及对遮挡、亮度变化等干扰因素的鲁棒性,为视觉语言智能的演进提供了精细化评估框架。
当前挑战
该数据集致力于解决视觉问答领域中模型组合推理与鲁棒性评估的核心挑战,具体体现为模型在多重属性耦合、长链逻辑推导及抗干扰感知等方面的能力欠缺。构建过程中的挑战主要源于任务体系的设计复杂性,需在保持概念纯净度的同时实现难度梯度自然过渡,并确保不同提示类型下的评估一致性。此外,合成数据的真实性与多样性平衡,以及标注过程中对组合语义的精确捕捉,均为数据集构建带来显著难度。
常用场景
经典使用场景
在视觉语言模型评估领域,VisRes Bench作为一项多模态视觉推理基准,其经典使用场景在于系统性地评测模型在多样化任务上的表现。该数据集通过涵盖计数、颜色、方向、分布及组合推理等29类任务,并设置从L1到L4的难度梯度,为研究者提供了一个层次化的评估框架。模型在通用提示与引导提示两种设置下接受测试,能够全面考察其从基础感知到复杂逻辑推理的能力边界,从而成为衡量模型视觉理解深度的标准工具。
解决学术问题
VisRes Bench致力于解决多模态人工智能中关于模型鲁棒性与泛化能力的核心学术问题。传统视觉问答数据集往往在任务类型或干扰因素上较为单一,难以精确诊断模型弱点。该数据集通过引入全局遮挡、亮度变化、模糊处理及旋转等多种图像扰动,以及耦合与独立的概念组合任务,系统地揭示了模型在对抗性环境与组合推理中的失败模式。其意义在于为模型可解释性研究提供了细粒度的分析数据,推动了更具鲁棒性的视觉推理架构的发展。
实际应用
在实际应用层面,VisRes Bench所评测的能力直接关联到诸多下游场景。例如,在自动驾驶系统中,模型需要从部分遮挡或低光照的图像中准确识别物体数量与方位;在医疗影像分析中,需对模糊或旋转的扫描图像进行可靠的特征提取与关系推理;而在交互式机器人或教育辅助工具中,系统需根据用户提供的不同详细程度的指令(对应通用与引导提示)完成视觉任务。该数据集的评估结果有助于筛选和优化适用于这些严苛现实环境的视觉语言模型。
数据集最近研究
最新研究方向
在视觉语言模型快速发展的背景下,VisRes Bench作为一项涵盖29种任务类别的多模态视觉推理基准,正推动着模型鲁棒性与组合推理能力的前沿探索。当前研究聚焦于利用其层级化任务设计,特别是L1至L4的渐进难度与通用/引导双提示机制,系统评估模型在遮挡、模糊、旋转等复杂视觉扰动下的泛化性能。该数据集与近期多模态大模型对物理常识和细粒度推理的热点需求紧密相连,通过颜色、计数、方向等组合任务,深刻揭示模型在解耦表征与逻辑归纳方面的局限,为构建更稳健、可解释的视觉推理系统提供了关键基准与方向指引。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作