MR2-Bench

Name: MR2-Bench
Creator: 北京邮电大学, 北京人工智能研究院, 中国科学技术大学, 中国人民大学, 百度公司
Published: 2025-09-30 23:09:14
License: 暂无描述

arXiv2025-09-30 更新2025-10-02 收录

下载链接：

https://github.com/VectorSpaceLab/MR2-Bench

下载链接

链接失效反馈

官方服务：

资源简介：

MR2-Bench是一个用于多模态检索的推理密集型基准数据集，包含1309个精心设计的查询，这些查询是通过手动收集和标注或从公共数据集中选择性整合而来。该数据集涵盖了多种多模态数据类型，如自然图像、图表和视觉谜题，并支持复杂查询和包含多个图像的文档，更准确地反映了现实世界的应用场景。数据集将推理能力作为关键评估标准，旨在推动多模态检索领域的发展。

MR2-Bench is a reasoning-intensive benchmark dataset for multimodal retrieval. It contains 1,309 meticulously designed queries, which are either manually collected and annotated or selectively integrated from public datasets. The dataset covers a variety of multimodal data types such as natural images, charts and visual puzzles, and supports complex queries and multi-image documents, which more accurately reflects real-world application scenarios. The dataset takes reasoning ability as a core evaluation criterion, aiming to promote the development of the multimodal retrieval field.

提供机构：

北京邮电大学, 北京人工智能研究院, 中国科学技术大学, 中国人民大学, 百度公司

创建时间：

2025-09-30

搜集汇总

数据集介绍

构建方式

在构建MR2-Bench数据集时，研究团队采用了严谨的多模态数据采集与标注流程。该数据集包含1,309个经过精心筛选的查询样本，涵盖自然图像、图表和视觉谜题等多样化模态内容。构建过程融合了人工收集标注与公开数据集选择性整合的双重策略，通过Stack Exchange平台获取真实用户提问作为查询基础，并由领域专家对候选文档进行多轮验证。特别值得注意的是，数据集中引入了具有挑战性的负样本，通过内部语料检索和生成式模型辅助筛选，确保评估体系能够有效检验模型的深度推理能力。

特点

MR2-Bench作为首个专注于多模态推理密集型检索的基准数据集，展现出三大核心特征。其任务设计全面超越浅层语义匹配，要求模型具备逻辑推理、空间感知和因果推断等高级认知能力。数据集涵盖生物学、经济学、数学等12个专业领域的子任务，支持文本到图像、图像到图像及混合模态查询等复杂检索场景。尤为突出的是，查询和文档均可包含多幅图像的自由组合形式，真实还原了实际应用中交错排列的多模态文档结构，为评估模型在真实场景下的推理性能提供了理想平台。

使用方法

该数据集支持端到端的多模态检索评估流程，研究者可通过统一的嵌入模型处理混合模态的查询和文档输入。评估时需特别注意对交错图像文本数据的特殊处理：对于单图像限制模型可采用图像拼接策略，而支持多图像的模型则可直接处理原始序列。实验表明，结合图像描述增强的文本检索器能显著提升性能，而显式推理步骤的引入更可带来额外增益。基准评估采用nDCG@10作为核心指标，同时提供Recall@1等多维度测量，确保全面衡量模型在复杂推理任务中的综合表现。

背景与挑战

背景概述

MR2-Bench由北京邮电大学、北京智源人工智能研究院等机构于2025年联合推出，旨在填补多模态检索领域对深度推理能力评估的空白。该数据集聚焦于超越表层语义匹配的复杂推理任务，涵盖逻辑推断、空间感知和因果分析等核心研究问题，其创新性体现在首次系统整合自然图像、图表和视觉谜题等多样化模态数据。通过构建包含1,309个高质量查询的评测基准，MR2-Bench显著推动了多模态检索技术向现实应用场景的演进，为人工智能系统的认知能力评估提供了重要范本。

当前挑战

该数据集致力于解决多模态检索中深度推理能力的评估难题，其核心挑战在于突破传统基于浅层语义匹配的检索范式，要求模型具备跨模态的逻辑推导与关系解构能力。在构建过程中面临三重挑战：首先需设计涵盖数学证明、视觉类比等专业领域的标注体系，确保图像成为推理的必要要素；其次要处理多图像交织的文档结构，突破单图像输入的技术限制；最后需平衡数据多样性，在保持生物学、经济学等跨领域特性的同时维持标注一致性。这些挑战共同凸显了当前模型在抽象视觉概念理解与复杂关系建模方面的局限性。

常用场景

实际应用

在实际应用层面，MR2-Bench高度契合现实世界中的复杂信息需求。其支持的自由格式多图像文档结构，精准模拟了技术文档、学术论文和教育资料中常见的图文混排场景。在专业图表解析、科学现象解释和视觉类比推理等任务中，该数据集为开发面向教育、科研和专业服务领域的智能检索系统提供了可靠的测试环境。特别是在需要结合领域知识和多步推理的视觉搜索场景中，MR2-Bench的评估结果直接反映了模型在实际应用中的可用性。

衍生相关工作

基于MR2-Bench的评估框架，已衍生出多项重要的技术改进工作。实验表明，查询重写和重排序策略能显著提升模型在该基准上的表现，其中GPT-5通过推理增强的重排序将nDCG@10提升至45.90。这些发现推动了推理增强检索技术的发展，催生了如BGE-Reasoner-Reranker等专门优化的模型架构。同时，该基准启发了多模态检索与大型语言模型协同的新研究方向，为构建更智能的跨模态推理系统奠定了理论基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集