MRMR

Name: MRMR
Creator: 南洋理工大学,耶鲁大学,纽约大学数据科学中心
Published: 2025-10-11 00:14:56
License: 暂无描述

arXiv2025-10-11 更新2025-10-14 收录

下载链接：

https://arxiv.org/pdf/2510.09510.pdf

下载链接

链接失效反馈

官方服务：

资源简介：

MRMR是一个专家级的多学科多模态检索基准，包含1502个经过人类专家仔细验证的查询，涵盖了23个领域。与之前的基准相比，MRMR在三个关键方面取得了进步：首先，它挑战了跨多个专业领域的检索系统，能够在不同领域之间进行细粒度的模型比较；其次，查询是推理密集型的，需要更深入地解释图像，例如诊断显微镜幻灯片；此外，还引入了矛盾检索这一新型任务，要求模型识别冲突的概念。与仅限于单个图像或单模态文档的早期基准不同，MRMR提供了一个具有多图像查询和混合模态语料库文档的现实场景。

MRMR is an expert-level, multidisciplinary and multimodal retrieval benchmark, comprising 1502 queries carefully validated by human experts and spanning 23 domains. Compared with prior retrieval benchmarks, MRMR advances in three key aspects: First, it challenges retrieval systems across multiple specialized domains, enabling fine-grained model comparisons between different fields; Second, the queries are reasoning-intensive, requiring in-depth interpretation of images such as diagnostic microscope slides; Furthermore, a novel task of contradiction retrieval is introduced, which requires models to identify conflicting concepts. Unlike earlier benchmarks that are limited to single images or unimodal documents, MRMR presents a realistic scenario with multi-image queries and mixed-modal corpus documents.

提供机构：

南洋理工大学,耶鲁大学,纽约大学数据科学中心

创建时间：

2025-10-11

搜集汇总

数据集介绍

构建方式

在构建MRMR数据集时，研究团队采用了半自动化与专家验证相结合的方法。首先从MMMU-Pro等权威多模态理解基准中筛选出1,502个涉及23个专业领域的复杂查询，这些查询均要求深度推理能力。随后通过GPT-Search模型检索相关网页，并运用MonkeyOCR技术提取交错排列的图文内容形成文档初稿。为确保数据质量，由来自顶尖高校的24名领域专家对文档相关性进行双重验证，最终构建出包含知识检索、定理检索和矛盾检索三类任务的完整数据集。

特点

MRMR数据集展现出三大核心特征：其多学科覆盖范围横跨医学、艺术、科学等23个专业领域，突破了传统检索数据集局限于通用知识的桎梏；查询设计强调深度推理需求，如要求对医学显微图像进行病理诊断或识别工程设计中的矛盾概念；数据呈现采用真实的图文交错格式，支持多图像查询与混合模态文档，更贴近实际应用场景。这些特性使其成为首个专家级多模态检索基准。

使用方法

使用MRMR数据集时，研究者可通过四种典型范式评估多模态检索系统：基于文本嵌入模型配合图像描述生成的方法，将视觉内容转化为文本进行检索；采用CLIP风格的双流模型通过向量融合整合多模态信息；利用多模态大语言模型生成统一嵌入表示；以及将整个文档作为图像处理的文档检索范式。评估指标主要采用nDCG@10，仅在否定检索任务中使用Hit@1，确保对不同推理能力的全面衡量。

背景与挑战

背景概述

MRMR数据集于2025年由来自南洋理工大学、耶鲁大学等机构的跨学科团队联合构建，标志着多模态检索领域向专业化推理密集型任务的重要演进。该数据集聚焦于解决现实场景中多学科专家领域（如医学诊断、工程规范）的复杂信息检索需求，通过整合23个专业领域的1502个查询，构建了首个支持图像-文本交错序列的专家级多模态检索基准。其核心研究问题在于如何突破传统语义匹配的局限，推动检索系统在需要深度逻辑推理的多模态环境中实现精准知识关联，为多模态检索增强生成等前沿应用提供了关键的评估基础。

当前挑战

MRMR针对的领域挑战主要体现为多模态检索系统在专家级推理任务中的效能瓶颈：现有模型难以实现跨模态的深层语义对齐，尤其在需要结合专业知识进行逻辑推演的任务（如医学影像诊断与定理推导）中表现显著落后。构建过程中的挑战集中于多模态数据质量保障：需通过半自动化流程从异构网络资源中提取专家验证的正例文档，同时克服跨领域术语标准化、图像-文本时序对齐以及矛盾检索任务中冲突概念标注的复杂性，这要求精细设计人工专家与大模型协同的标注机制以确保数据可靠性。

常用场景

经典使用场景

在跨学科专家级知识检索场景中，MRMR数据集通过其交织式图文序列的查询结构，为多模态检索系统提供了精准评估框架。该数据集涵盖医学影像诊断、农业病虫害识别、艺术史分析等23个专业领域，要求模型不仅实现视觉与文本的语义对齐，还需进行深层次的逻辑推理。例如在医学子任务中，系统需要根据组织切片图像检索相关病例文献，其核心价值在于模拟真实科研环境中专家进行跨模态知识关联的复杂认知过程。

实际应用

该数据集在医疗辅助诊断系统中具有重要应用价值，可帮助医生通过医学影像检索相似病例和诊疗指南；在工程领域支持设计合规性审查，自动识别产品设计与规范文件的冲突条款；在智能教育领域赋能交互式学习，根据学生提交的多模态作业自动关联相关知识图谱。其矛盾检索机制更在司法文书审查、交通违规判定等场景中展现出独特优势，为构建具备逻辑验证能力的专业级检索系统奠定基础。

衍生相关工作

基于MRMR的评估范式，研究者开发了Ops-MM-Embedding等新型多模态嵌入模型，通过统一训练策略提升跨域检索性能。其矛盾检索任务启发了法律文档智能审查系统的构建，衍生出基于规则冲突检测的司法辅助工具。在方法论层面，该数据集推动测试时扩展技术的演进，通过大语言模型生成推理轨迹显著提升检索效果，为多模态检索与生成任务的融合提供了创新思路。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集