MMhops

Name: MMhops
Creator: 中国科学院自动化研究所, 腾讯公司
Published: 2025-12-16 01:29:02
License: 暂无描述

arXiv2025-12-16 更新2025-12-17 收录

下载链接：

https://github.com/taoszhang/MMhops-R1

下载链接

链接失效反馈

官方服务：

资源简介：

MMhops是由中科院自动化所与腾讯联合构建的大规模多模态多跳推理基准数据集，涵盖31,117条样本，包含28,256张图像和8,832个实体。该数据集通过维基百科知识库构建，采用GPT-4o等模型进行自动化标注，包含桥接推理和对比推理两种任务类型，支持3-4跳动态推理链。其创新性在于首次系统整合视觉与文本模态的多跳推理，要求模型通过跨模态知识检索和动态路径规划解决复杂问题，为多模态大语言模型的深度推理能力评估提供了重要基准。

MMhops is a large-scale multimodal multi-hop reasoning benchmark dataset jointly developed by the Institute of Automation of the Chinese Academy of Sciences and Tencent. It contains 31,117 samples, including 28,256 images and 8,832 entities. Constructed based on the Wikipedia knowledge base, this dataset adopts models such as GPT-4o for automated annotation, and features two task types: bridging reasoning and comparative reasoning, supporting 3- to 4-hop dynamic reasoning chains. Its core innovation lies in the first systematic integration of multi-hop reasoning across visual and textual modalities, requiring models to solve complex problems through cross-modal knowledge retrieval and dynamic path planning, thus providing a critical benchmark for evaluating the deep reasoning capabilities of multimodal large language models.

提供机构：

中国科学院自动化研究所, 腾讯公司

创建时间：

2025-12-16

原始信息汇总

MMhops-R1 数据集概述

数据集名称

MMhops-R1

核心描述

MMhops-R1 是一个用于多模态多跳推理的数据集。

当前状态

数据集与相关代码即将发布。

备注

根据提供的信息，该数据集详情页面目前未包含更详细的技术规格、数据构成、规模或获取方式。

搜集汇总

数据集介绍

构建方式

在视觉问答领域，现有基准往往局限于单步推理，难以评估模型整合多模态信息与外部知识进行多跳推理的能力。MMhops数据集通过系统化流程构建，以维基百科知识库为基础，利用大型语言模型实现自动化标注与质量过滤。其构建涵盖两种核心推理类型：桥接推理从单张图像出发，通过迭代扩展生成多步链式推理问题；比较推理则基于多张图像，要求模型识别跨图像的实体并进行量化比较。整个流程包含实体识别、子问题生成、质量控制和答案标准化等关键环节，确保了数据集的复杂性与多样性。

特点

作为首个面向多模态多跳推理的大规模基准，MMhops数据集在规模与复杂性上均具有显著特点。该数据集包含超过3.1万个样本，涵盖2.8万余张图像与近9千个实体，所有问题均需进行跨视觉与文本模态的多跳推理，其中约70%的样本需要三步推理，其余需四步。与现有知识库视觉问答数据集相比，MMhops首次引入了多图像输入与可变长度的推理路径，要求模型动态构建推理链并整合外部知识。其答案类型以数值为主，便于对模型推理精度进行量化评估，从而为推进复杂多模态推理研究提供了更具挑战性的测试平台。

使用方法

MMhops数据集主要用于评估与促进多模态大语言模型在复杂推理任务上的性能。研究者在利用该数据集时，通常需设计能够动态规划推理路径、并与外部检索器进行多轮交互的框架。以论文提出的MMhops-R1为例，该方法采用强化学习优化模型，使其能自主选择图像或文本检索动作，并基于检索结果逐步合成信息以生成最终答案。评估时需遵循严格的协议，根据答案类型（字符串、数值、时间）采用不同的匹配标准，如精确匹配、容错范围或交并比阈值，以确保对模型多跳推理能力的全面与公正衡量。

背景与挑战

背景概述

在人工智能迈向复杂推理的进程中，多模态大语言模型（MLLMs）的涌现显著提升了视觉与语言融合理解的能力。然而，现有模型在应对需要跨模态、多步骤整合外部知识的真实世界复杂问题时，仍面临深度推理能力的局限。为填补这一空白，由中国科学院自动化研究所、腾讯等机构的研究团队于2025年共同提出了MMhops数据集。该数据集作为首个大规模多模态多跳推理基准，旨在系统性地评估和推动模型在视觉与文本维度上进行深度链式推理的能力。其核心研究问题聚焦于如何让模型动态构建推理路径，通过迭代检索与信息融合来解答涉及多图像比较或单图像多步桥接的复杂问题。MMhops的建立为多模态推理研究提供了关键的评价标准，推动了该领域从浅层感知向深度认知的范式转变。

当前挑战

MMhops数据集旨在解决多模态多跳推理这一核心领域问题的挑战，其核心在于要求模型超越传统的单步视觉识别与知识检索，能够自主规划并执行动态的、可变长度的推理链。具体挑战包括：模型需在单张图像上执行桥接推理，通过多轮交互逐步链接实体与知识；或在多张图像间执行比较推理，识别不同视觉实体并对其共享属性进行量化分析。这两种任务均要求模型深度整合来自图像和外部知识库（如维基百科）的异构信息。在数据集构建过程中，主要挑战源于如何自动化生成高质量、多样化的多跳问题。研究团队通过设计复杂的迭代流水线，利用大语言模型进行子问题生成、质量控制和问题合并，并引入严格的验证机制以确保推理链的逻辑连贯性与答案的可验证性，最终克服了人工标注成本高昂与逻辑一致性难以保证的难题。

常用场景

经典使用场景

在视觉语言模型研究领域，MMhops数据集被广泛用于评估和推动多模态多跳推理能力。该数据集通过桥接推理和比较推理两种任务格式，要求模型在单张或多张图像的基础上，动态构建跨模态的复杂推理链，并整合外部知识库中的信息。例如，在桥接推理任务中，模型需要从图像中识别实体，通过多轮交互检索相关知识，逐步推导出最终答案；而在比较推理任务中，模型需对多幅图像中的实体进行识别与属性对比，实现跨图像的定量分析。这一场景为研究多模态大语言模型在深层推理中的表现提供了标准化测试平台。

解决学术问题

MMhops数据集主要解决了多模态推理研究中长期存在的推理深度不足问题。传统知识型视觉问答数据集通常局限于单步视觉识别与文本检索，缺乏对复杂多跳推理能力的系统评估。该数据集通过引入可变长度的多跳推理链，迫使模型在视觉与文本模态间进行动态信息整合，从而推动了模型在外部知识利用、推理路径规划以及跨模态对齐等方面的研究进展。其意义在于为多模态推理设立了新的性能基准，促进了如强化学习驱动的检索增强生成等创新方法的发展，对提升人工智能系统在复杂现实问题中的推理能力具有深远影响。

衍生相关工作

围绕MMhops数据集，学术界衍生出一系列聚焦于多模态多跳推理的创新工作。其中，MMhops-R1框架首次将强化学习引入多模态检索增强生成领域，通过动态规划推理路径显著提升了模型性能。此外，研究社区基于该数据集的挑战性，进一步探索了如跨模态注意力机制优化、知识检索策略自适应以及多跳推理的可解释性增强等方法。这些工作不仅深化了对多模态推理机制的理解，也推动了如OmniSearch、EchoSight等先进系统在复杂问答任务上的性能突破，形成了以动态交互与知识融合为核心的技术演进脉络。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集