five

ZoomBench

收藏
Hugging Face2026-02-14 更新2026-02-15 收录
下载链接:
https://huggingface.co/datasets/inclusionAI/ZoomBench
下载链接
链接失效反馈
官方服务:
资源简介:
ZoomBench 是一个专为评估多模态大语言模型(MLLMs)细粒度多模态感知能力而设计的挑战性基准测试。该数据集针对视觉证据微小、细微或容易被全局上下文掩盖的场景,要求模型从单张完整图像中实现“缩放级”感知。数据集包含845个样本,涵盖6个主要感知维度:细粒度计数、OCR、颜色属性、结构属性、材料属性和物体识别。每个样本包括完整图像和关键区域裁剪,支持双视图评估协议和注意力图可解释性分析。数据集采用混合构建方法,结合了Gemini-2.5-Pro生成和人工验证,具有高难度(57.5%)和自动证据标注的特点。适用于需要细粒度视觉理解的多模态任务评估。
创建时间:
2026-02-12
原始信息汇总

ZoomBench 数据集概述

数据集简介

ZoomBench 是一个旨在评估多模态大语言模型(MLLMs)细粒度多模态感知能力的基准测试。它专门针对那些决定性视觉证据微小、细微或容易被全局上下文淹没的场景,这些场景要求模型仅从单张完整图像中实现“缩放级别”的感知。该数据集是“Zooming without Zooming”项目的一部分。

关键统计信息

  • 总样本数:845
  • 感知维度:6
  • 问题格式:多项选择题 + 开放性问题
  • 评估视图:完整图像 + 裁剪区域(双视图)
  • 证据标注:自动(通过R2I方法)
  • 构建方式:混合(Gemini-2.5-Pro生成 + 人工验证)
  • 难度:57.5%(以 1 − Qwen2.5-VL-7B 模型的准确率衡量)

感知维度

数据集涵盖细粒度感知的6个主要类别:

  1. 细粒度计数:针对微小且密集堆积的物体。
  2. OCR:专注于文本和符号识别。
  3. 颜色属性:辨别物体局部的细微颜色变化。
  4. 结构属性:检查几何和形状相关属性,如物体结构和部件布局。
  5. 材质属性:识别材料构成和表面属性(如金属、木材、玻璃、织物)。
  6. 物体识别:区分特定的物体类型和种类,如旗帜、品牌、地标和知名人物。

评估协议

混合评分格式

  • 多项选择题:适用于答案空间自然离散或难以严格归一化的情况。
  • 开放性问题:带有标准目标答案,用于更自然和灵活的评估。

双视图协议

每个样本包含完整图像及其对应的关键区域裁剪图。这可以量化“缩放差距”,即从裁剪区域感知与从完整图像感知的性能差异。缩放差距大表明模型难以从全局上下文中提取细粒度细节,而差距小则表明模型具有鲁棒的细粒度感知能力。

注意力图可解释性

支持注意力图覆盖率评估,用于衡量模型的视觉注意力是否集中在与任务相关的图像区域上。这提供了一个可解释性视角:即使模型回答正确,若在目标区域上的注意力覆盖率低,也可能表明其依赖捷径而非真正的细粒度理解。

构建流程

  1. 从多样化的图像数据集中裁剪出微区域。
  2. 使用强大的MLLM(Gemini-2.5-Pro)基于裁剪区域生成问题和候选答案。
  3. 将问题映射回完整图像,形成具有挑战性的感知任务(无需任何空间标注,如边界框)。裁剪区域自动作为证据标注。
  4. 人工循环验证:人工标注者根据完整图像和裁剪区域检查模型生成的问答对的有效性、难度和正确性。
  5. 将问题聚类到6个细粒度感知类别中。

使用方式

加载数据集

python from datasets import load_dataset dataset = load_dataset("inclusionAI/ZoomBench")

评估

评估脚本位于项目主仓库中:

  • 转换ZoomBench为评估格式:python convert_benchmark.py
  • 运行基准评估:bash run_baseline.sh
  • 注意力图覆盖率分析:python eval_coverage.py

相关资源

  • 模型:ZwZ-4B、ZwZ-7B、ZwZ-8B
  • 训练数据:ZwZ-RL-VQA
  • 项目仓库:https://github.com/inclusionAI/Zooming-without-Zooming

引用

bibtex @article{wei2026zooming, title={Zooming without Zooming: Region-to-Image Distillation for Fine-Grained Multimodal Perception}, author={Wei, Lai and He, Liangbo and Lan, Jun and Dong, Lingzhong and Cai, Yutong and Li, Siyuan and Zhu, Huijia and Wang, Weiqiang and Kong, Linghe and Wang, Yue and Zhang, Zhuosheng and Huang, Weiran}, journal={arXiv preprint arXiv:2602.11858}, year={2026} }

许可证

请参阅项目仓库了解许可证详情。ZoomBench 旨在用于研究和评估目的。

联系方式

  • Lai Wei: waltonfuture@sjtu.edu.cn
  • Liangbo He: langdao.hlb@antgroup.com
  • Jun Lan: yelan.lj@antgroup.com
  • Zhuosheng Zhang: zhangzs@sjtu.edu.cn
  • Weiran Huang: weiran.huang@sjtu.edu.cn
搜集汇总
数据集介绍
main_image_url
构建方式
在构建ZoomBench数据集的过程中,研究者创新性地采用了区域到图像蒸馏方法,以系统化地评估多模态大语言模型的细粒度感知能力。该方法首先从多样化的高分辨率图像数据集中裁剪出微观区域,随后利用强大的多模态模型Gemini-2.5-Pro基于这些裁剪区域自动生成问题及候选答案。生成的问题被映射回原始完整图像,形成无需空间标注的挑战性感知任务,而裁剪区域则自动作为证据标注。为确保数据质量,构建流程引入了人机协同验证环节,由人工标注者对模型生成的问答对在完整图像和裁剪区域上的有效性、难度及正确性进行核查,最终通过聚类分析将问题归纳为六个核心的细粒度感知维度。
特点
ZoomBench数据集的核心特征体现在其专为评估细粒度多模态感知而设计的复杂结构与评估协议。该数据集包含845个样本,覆盖精细计数、光学字符识别、颜色属性、结构属性、材料属性及物体识别六大感知维度,问题形式融合了多项选择与开放式问答。其独创的双视图评估协议为每个样本同时提供完整图像与关键区域裁剪,使得能够量化模型的“缩放差距”,从而直接衡量模型从全局语境中提取细微证据的能力。此外,数据集支持注意力图覆盖度分析,为模型决策过程提供可解释性视角,揭示了模型是否真正内化了无需实际缩放的细粒度感知能力。
使用方法
ZoomBench数据集的使用旨在系统评估多模态模型在细粒度视觉理解任务上的性能。研究人员可通过Hugging Face的`datasets`库直接加载该数据集进行初步探索。为了进行全面评估,需从项目仓库获取专用评估脚本,这些脚本支持将数据集转换为标准评估格式,并运行基准测试以获取模型在双视图协议下的性能指标。评估过程不仅计算模型在完整图像和裁剪区域上的回答准确率,还可进一步执行注意力图覆盖度分析,以探究模型视觉注意力是否集中于任务相关区域。该数据集主要服务于学术研究,为开发具备更强细粒度感知能力的多模态模型提供关键的基准测试平台。
背景与挑战
背景概述
在人工智能迈向通用感知的进程中,多模态大语言模型对细粒度视觉信息的理解能力成为关键瓶颈。ZoomBench基准数据集应运而生,由上海交通大学与蚂蚁集团的研究团队于2025年联合提出,旨在系统评估模型在无需显式放大的情况下,从单张全景图像中捕捉细微视觉证据的能力。该数据集围绕细粒度多模态感知这一核心研究问题,通过涵盖精细计数、光学字符识别、颜色属性等六个感知维度,为衡量模型是否具备“内在缩放”的感知机制提供了标准化测试平台,对推动视觉-语言融合模型的鲁棒性发展具有重要影响。
当前挑战
ZoomBench致力于解决多模态大语言模型在细粒度视觉理解任务中,因关键证据微小、细微或被全局上下文淹没而导致的感知失效问题。其构建过程面临双重挑战:在问题设计上,需确保自动生成的问答对既能覆盖多样化的细粒度场景,又能维持较高的语义复杂性与答案确定性;在数据标注层面,如何通过区域到图像的蒸馏方法实现证据的自动标注,并借助人机协同验证机制在降低人工成本的同时保证数据质量,是数据集构建的核心技术难点。
常用场景
经典使用场景
在细粒度多模态感知研究领域,ZoomBench数据集被广泛用于评估多模态大语言模型在复杂视觉场景中的精细感知能力。其经典应用场景聚焦于模型对单张全景图像中微小、细微或易被全局上下文淹没的关键视觉证据的识别与理解,例如在密集物体计数、细微颜色属性判别或局部结构特征分析等任务中,模型无需依赖图像裁剪或放大操作,即可实现“无缩放”的精细感知。该数据集通过双视图评估协议,量化模型在全图像与关键区域裁剪视图之间的性能差异,为模型内在的细粒度感知能力提供了标准化测试平台。
解决学术问题
ZoomBench数据集主要解决了多模态感知研究中模型对细粒度视觉信息捕捉不足的学术难题。传统多模态基准测试往往侧重于宏观场景理解,难以衡量模型在微小区域或局部细节上的感知精度。该数据集通过自动证据标注与混合问题格式,系统化地评估模型在六个核心感知维度上的表现,包括精细计数、光学字符识别、颜色属性、结构属性、材料属性与物体识别。其高难度设计有效揭示了模型在复杂视觉上下文中的感知瓶颈,推动了无需显式图像放大的细粒度感知方法的发展,为多模态模型的鲁棒性与可解释性研究提供了关键数据支撑。
衍生相关工作
围绕ZoomBench数据集,研究者已衍生出一系列经典工作,主要集中在提升多模态模型的细粒度感知能力。例如,配套发布的ZwZ系列模型(如ZwZ-4B、ZwZ-7B)通过区域到图像蒸馏方法,实现了无需显式图像放大的精细理解。同时,基于该数据集的双视图评估协议,多项研究探索了视觉注意力机制与感知性能的关联,推动了多模态可解释性分析的发展。此外,数据集的构建方法——结合自动生成与人工验证的混合流程——也为后续细粒度基准测试的设计提供了重要参考,促进了多模态评估标准向更精细、更严谨方向的演进。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作