VisBrowse-Bench

Name: VisBrowse-Bench
Creator: 中国科学院自动化研究所; 蚂蚁集团·数字科技; 中国人民大学; 福州大学; 清华大学; 北京科技大学; 北京大学
Published: 2026-03-18 23:40:14
License: 暂无描述

arXiv2026-03-18 更新2026-03-20 收录

下载链接：

https://github.com/ZhengboZhang/VisBrowse-Bench

下载链接

链接失效反馈

官方服务：

资源简介：

VisBrowse-Bench是由蚂蚁集团等机构构建的多模态浏览代理基准数据集，包含169个经过严格人工验证的视觉问答实例，涵盖媒体、生活、艺术等7大领域。该数据集通过专家多阶段流水线构建，要求模型在搜索过程中进行跨模态证据验证和联合推理，旨在解决现有基准对视觉推理能力评估不足的问题，推动多模态搜索代理在复杂场景中的应用。

VisBrowse-Bench is a multimodal browsing agent benchmark dataset developed by Ant Group and other institutions. It includes 169 rigorously manually verified visual question answering (VQA) instances, covering 7 major domains such as media, daily life, art and others. This dataset is constructed via a multi-stage expert pipeline, requiring models to perform cross-modal evidence verification and joint reasoning during the search process. It aims to solve the problem that existing benchmarks have insufficient evaluation of visual reasoning capabilities, and promote the application of multimodal search agents in complex scenarios.

提供机构：

中国科学院自动化研究所; 蚂蚁集团·数字科技; 中国人民大学; 福州大学; 清华大学; 北京科技大学; 北京大学

创建时间：

2026-03-17

原始信息汇总

VisBrowse-Bench 数据集概述

数据集基本信息

数据集名称：VisBrowse-Bench
核心目标：为视觉原生搜索（visual-native search）提供新的基准测试。
发布状态：已于2026年3月18日在Hugging Face平台发布。
关联论文：论文《VisBrowse-Bench: Benchmarking Visual-Native Search for Multimodal Browsing Agents》已于2026年3月17日在arXiv发布。

数据集内容与规模

数据规模：包含169个视觉问答（VQA）实例。
覆盖领域：涵盖多个领域。
评估重点：通过多模态证据交叉验证（结合文本-图像检索和联合推理），评估模型在搜索过程中的视觉推理能力。

数据结构与使用

数据格式：数据文件为 VisBrowse-Bench.jsonl。
数据加密：数据集中的 question 和 answer 字段被加密，使用前需运行提供的 decrypt_data.py 脚本进行解密。
使用流程：
1. 解密数据。
2. 配置并运行模型推演脚本 (run.sh)。
3. 配置并运行答案评估脚本 (eval.sh)。

相关资源

数据集地址：https://huggingface.co/datasets/Zhengbo-Zhang/VisBrowse-Bench
论文地址：https://arxiv.org/abs/2603.16289
引用信息：请使用提供的BibTeX条目进行引用。

搜集汇总

数据集介绍

构建方式

在多模态大语言模型驱动浏览代理发展的背景下，VisBrowse-Bench的构建遵循了严谨的专家指导流程。其核心在于通过多阶段流水线，由领域专家围绕具有视觉模糊性的种子实体，递归地构建多跳推理链。专家们从公开可访问的数据源中，系统性地检索包含视觉歧义实体或重叠区域的图像，确保每条证据链至少包含两个无法被文本转述的视觉证据。所有169个视觉问答实例均经过严格的人工验证，以保证视觉信息在推理过程中的结构必要性，并强制要求解答过程跨越至少三个推理步骤，从而杜绝任何单跳捷径的可能性。

特点

该数据集的核心特点在于其设计严格遵循视觉能力强制与多模态信息融合两大原则。每个问题实例均由文本查询与一组包含关键视觉线索的参考图像构成，确保对查询的理解必须依赖视觉感知。数据集中的视觉信息被设计为结构上不可或缺的，无法通过文本描述或语义标签替代，从而强制模型调用包括空间定位、属性感知和关系解析在内的核心视觉能力。其覆盖媒体、生活、艺术、地理、科技、体育和金融七个高兴趣领域，问题设计要求模型在搜索过程中主动发现并整合新颖的视觉证据，实现了对跨图像推理和细粒度视觉理解能力的深度评估。

使用方法

为有效利用该数据集评估多模态浏览代理，研究提出了一套包含文本搜索、图像搜索、反向图像搜索、图像裁剪和网页访问五种核心工具的智能体工作流程。该工作流程驱动模型在搜索过程中进行迭代式的工具调用，动态获取并整合跨模态的异构证据。评估时，模型通常经历从仅依赖内部参数知识的直接回答，到允许使用文本搜索工具，再到启用全部视觉信息检索工具的渐进式增强过程。通过这种多轮视觉信息检索-推理的闭环，数据集能够系统性地检验模型在真实网络环境中主动收集、处理视觉信息并与文本证据进行交叉验证的综合能力。

背景与挑战

背景概述

随着多模态大语言模型的迅猛发展，智能体在真实网络环境中获取与推理多模态信息的能力日益增强。然而，现有评测基准普遍存在两大局限：对视觉推理能力的评估不足，以及在推理链中忽视了网页原生视觉信息的关键作用。为应对这些挑战，研究团队于2026年提出了VisBrowse-Bench这一全新基准，旨在系统评估多模态浏览智能体的视觉原生搜索能力。该基准由来自中国科学院自动化研究所、蚂蚁集团等机构的学者联合构建，核心研究问题聚焦于如何设计一个能够强制模型在搜索过程中主动整合视觉与文本证据、并进行跨模态推理的评测体系。VisBrowse-Bench包含169个经过专家严格验证的视觉问答实例，覆盖媒体、生活、艺术、地理、科技、体育与金融七大领域，其推出为多模态智能体研究提供了更贴近真实场景的评估标准，推动了该领域向深度视觉理解与搜索的方向演进。

当前挑战

VisBrowse-Bench所针对的核心领域挑战在于，现有基准难以有效评估多模态浏览智能体在复杂真实环境中的视觉推理与跨模态信息整合能力。具体而言，许多基准任务允许模型通过简单的图像搜索工具将视觉查询转化为文本语义，从而规避了细粒度的视觉理解；同时，搜索过程往往退化为纯文本遍历，未能要求模型动态获取并推理网页中的视觉证据。在数据集构建层面，挑战同样显著：为确保视觉信息的结构不可或缺性，专家需遵循严格的多阶段流程，从公开数据源中递归构建多跳推理链，其中每一步都必须包含无法被文本替代的视觉证据，并经过跨图像的空间定位、属性感知与关系解析验证。此外，数据还需满足答案唯一性与公开可验证性，这要求对每个实例进行多层人工核查，以杜绝单跳捷径并保证推理链的完备性与确定性。

常用场景

经典使用场景

在视觉原生搜索领域，VisBrowse-Bench作为一项精心构建的基准测试，其经典应用场景聚焦于评估多模态浏览代理在复杂真实网络环境中的视觉推理与信息整合能力。该数据集通过169个涵盖媒体、生活、艺术、地理、科技、体育与金融七大领域的视觉问答实例，模拟了需要代理主动发现、解析并串联多跳视觉证据的深度搜索任务。每个实例均要求模型在推理链中动态获取并融合网页中的原生视觉信息，而非依赖预先提供的完整视觉上下文，从而精准测试代理在开放网络环境中进行持续、细粒度视觉理解与跨模态推理的综合性能。

实际应用

VisBrowse-Bench的实际应用价值体现在对下一代智能信息检索系统的开发与优化上。其设计的任务高度模拟了现实世界中用户通过多模态查询进行复杂信息探索的场景，例如根据一张包含多个人物的照片，追溯其中某位人物参与的特定事件细节，或通过产品局部图像识别品牌并查询其相关商业活动。该基准能够有效评估智能助理、搜索引擎或研究工具在处理需要结合图像分析与文本检索的跨模态查询时的实用性。通过驱动代理主动使用图像搜索、反向图像搜索、图像裁剪等工具链，VisBrowse-Bench为构建能够在丰富多模态网络环境中自主导航、精准获取并可靠合成信息的实用化智能体提供了关键的测试床与优化方向。

衍生相关工作

VisBrowse-Bench的提出，建立在对先前多模态浏览基准（如MMSearch、BrowseComp-VL、VDR-Bench等）的深入分析与批判之上，并直接启发了后续一系列注重视觉原生搜索能力的研究。其核心设计理念——即在推理链中强制整合视觉证据并确保视觉能力不可或缺——为后续基准构建提供了明确范式。相关工作在此基础上，进一步探索了如何通过强化学习框架训练代理的视觉搜索策略、如何合成更高质量的多模态训练数据以提升代理的视觉推理性能，以及如何设计更高效的端到端多模态搜索架构。这些衍生工作共同推动了多模态浏览智能体从单纯的工具调用，向具备深度视觉理解与自主信息寻求能力的“视觉原生”智能体演进。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集