MMSearch-Plus

Name: MMSearch-Plus
Creator: 香港大学 (HKU)
Published: 2025-08-29 17:58:27
License: 暂无描述

arXiv2025-08-29 更新2025-11-25 收录

下载链接：

https://hf-mirror.com/datasets/Cie1/MMSearch-Plus

下载链接

链接失效反馈

官方服务：

资源简介：

MMSearch-Plus是一个包含311个任务的基准数据集，它要求模型在保持强文本浏览任务难度的情况下，进行高度细粒度的多模态理解。每个项目都包含多个微弱、局部的视觉信号，这些信号必须在迭代文本-图像搜索过程中被提取、传播，并在检索噪声下进行交叉验证，然后才能回答问题。数据集的创建过程采用了空间-时间外推法，即从空间线索（微观文本、部分级别外观、布局、标志）和时间痕迹（广播覆盖、季节性背景）中推断出图像外的事实（例如事件、日期、地点）。该数据集旨在解决多模态浏览代理在细粒度视觉推理、来源验证和长期工具使用方面的挑战。

MMSearch-Plus is a benchmark dataset consisting of 311 tasks, which requires models to conduct highly fine-grained multimodal understanding while preserving the difficulty of robust text browsing tasks. Each instance contains multiple weak and local visual signals, which must be extracted, propagated, and cross-validated under retrieval noise during an iterative text-image search process before answering the associated question. The dataset is constructed via a spatio-temporal extrapolation method, which infers facts beyond the image content (e.g., events, dates, and locations) from spatial cues (micro-text, partial-level appearance, layout, logos) and temporal traces (broadcast coverage, seasonal backgrounds). This dataset is designed to address the challenges faced by multimodal browsing agents in fine-grained visual reasoning, source verification, and long-term tool usage.

提供机构：

香港大学 (HKU)

创建时间：

2025-08-29

搜集汇总

数据集介绍

构建方式

在多媒体智能体研究领域，传统基准测试往往被简化的搜索流程所主导，难以体现真正的多模态推理挑战。MMSearch-Plus数据集通过创新的时空外推法构建了311个任务，该方法要求从图像中的空间线索（如微文本、局部外观特征、布局结构）和时间痕迹（如广播叠加信息、季节背景）中推断出图像之外的事实信息。数据采集过程严格筛选来自YouTube、Bilibili和arXiv等平台的关键帧与学术图表，并采用对抗性过滤机制确保任务无法仅通过参数化知识解决，从而构建出真正需要多模态搜索能力的评估体系。

特点

该数据集的核心特征在于其强调细粒度视觉推理与来源验证的深度融合。每个任务包含多个微弱且局部的视觉信号，要求智能体在检索噪声环境下进行迭代式文本-图像搜索与交叉验证。不同于传统基准中依赖单一显著实体的模式，本数据集通过时空外推机制迫使模型持续关注微观视觉特征，并维持与纯文本浏览任务相媲美的难度曲线。这种设计使得数据集既能检验模型对碎片化视觉线索的整合能力，又能评估其在长序列工具使用中的持久性表现。

使用方法

针对该数据集的使用，研究团队提供了模型无关的智能体框架，支持文本与图像搜索的协同操作。评估设置包含三种模式：无搜索基准测试用于衡量模型固有知识；单轮图像搜索检验基础检索能力；完整推演模式则允许最多20轮搜索交互，模拟真实网络环境中的持续探索过程。实验表明，当前最强模型在无搜索模式下仅达15.1%准确率，而经过完整搜索推演后可提升至36.0%，这验证了数据集对工具增强型多模态推理能力的有效度量。研究者可通过该框架系统分析模型在视觉定位、证据链构建等维度的表现。

背景与挑战

背景概述

MMSearch-Plus数据集由香港大学与华为公司于2025年联合发布，旨在解决多模态浏览代理在复杂信息检索任务中的核心挑战。该数据集聚焦于提升多模态大语言模型对细粒度视觉线索的解析能力，通过时空外推法构建了311项任务，涵盖地理、体育、学术等八大领域。其创新性在于强调从局部视觉信号（如微文本、布局特征）到外部事实的推理过程，填补了现有基准在真实性验证与长序列工具调用方面的空白，为多模态智能体的演进提供了关键评估框架。

当前挑战

该数据集针对多模态浏览领域两大核心挑战：其一，在领域问题层面，需突破传统图像分类的局限，实现对稀疏视觉线索的跨模态关联与噪声环境下的来源验证；其二，在构建过程中，面临时空外推标注的复杂性，包括局部视觉信号的精细化提取、对抗性过滤以消除模型先验知识干扰，以及多轮检索轨迹的稳定性控制。这些挑战共同推动了智能体在细粒度推理与工具协同方面的能力边界。

常用场景

经典使用场景

在多媒体信息检索研究领域，MMSearch-Plus数据集被广泛用于评估多模态浏览代理的细粒度视觉推理能力。该数据集通过空间-时间外推法构建的311个任务，要求模型从局部视觉信号中提取关键信息，并通过迭代式文本-图像搜索进行证据传播，最终在检索噪声环境下完成跨模态验证。这种设计使得该数据集成为测试多模态代理在真实网络环境中处理复杂信息检索任务的理想平台。

衍生相关工作

基于MMSearch-Plus的设计理念，研究社区衍生出多个重要工作。BrowseComp-VL通过扩展文本搜索空间提升任务难度，MM-BrowseComp则建立了包含224个问题的多模态浏览代理基准。同时，Thinking with Images系列研究强调图像优先的推理策略，GRIT、DeepEyes等方法通过强化学习训练提升模型的视觉思考能力。这些工作共同推动了多模态代理在复杂网络环境中的推理性能提升，形成了以细粒度视觉理解和工具协作为核心的技术路线。

数据集最近研究