MMIR

github2025-02-25 更新2025-02-26 收录

下载链接：

https://github.com/eric-ai-lab/MMIR

下载链接

链接失效反馈

官方服务：

资源简介：

MMIR是一个用于评估多模态大型语言模型(MLLMs)在检测和推理布局丰富的多模态内容中的不一致性的第一个基准数据集，包含534个具有挑战性的样本，跨越五个推理密集型的不一致性类别：事实矛盾、身份误归因、上下文不匹配、数量差异和时间/空间不连贯。

MMIR is the first benchmark dataset for evaluating Multimodal Large Language Models (MLLMs) on detecting and reasoning about inconsistencies in layout-rich multimodal content. It comprises 534 challenging samples spanning five reasoning-intensive inconsistency categories: factual contradictions, misattributed identities, contextual mismatches, quantity discrepancies, and temporal/spatial incoherences.

创建时间：

2025-02-22

原始信息汇总

MMIR 数据集概述

基本信息

数据集名称: MMIR (Multimodal Inconsistency Reasoning)
主页: https://jackie-2000.github.io/mmir.github.io/
数据集地址: https://huggingface.co/datasets/rippleripple/MMIR
论文地址: https://arxiv.org/pdf/2502.16033
GitHub仓库: https://github.com/eric-ai-lab/MMIR/

数据集简介

MMIR是首个用于评估多模态大语言模型(MLLMs)在布局丰富的多模态内容中检测和推理不一致性的基准测试。数据集包含534个具有挑战性的样本，涵盖以下五个推理密集型不一致类别：

事实矛盾 (Factual Contradiction)
身份归属错误 (Identity Misattribution)
上下文不匹配 (Contextual Mismatch)
数量差异 (Quantitative Discrepancy)
时空不连贯 (Temporal/Spatial Incoherence)

数据集构建

通过四阶段筛选流程精心构建
确保高质量、多样化和具有挑战性的测试案例

评估结果 (部分模型表现)

模型	Web (开放式)	Office (开放式)	Poster (开放式)	总体 (开放式)	Web (选择题)	Office (选择题)	Poster (选择题)	总体 (选择题)
o1 (1217)	47.91	59.19	38.73	51.40	47.91	58.52	46.47	52.15
GPT-4o (1120)	25.00	42.60	30.98	33.14	37.29	58.96	47.88	47.75
Qwen2.5-VL-7B	8.54	29.14	11.97	17.60	14.37	33.18	16.90	22.56

联系方式

Qianqi Yan: qyan79@ucsc.edu
Xin Eric Wang: xwang366@ucsc.edu

引用格式

bibtex @misc{yan2025multimodalinconsistencyreasoningmmir, title={Multimodal Inconsistency Reasoning (MMIR): A New Benchmark for Multimodal Reasoning Models}, author={Qianqi Yan and Yue Fan and Hongquan Li and Shan Jiang and Yang Zhao and Xinze Guan and Ching-Chen Kuo and Xin Eric Wang}, year={2025}, eprint={2502.16033}, archivePrefix={arXiv}, primaryClass={cs.AI}, url={https://arxiv.org/abs/2502.16033}, }

搜集汇总

数据集介绍

构建方式

MMIR数据集的构建，采取了一个四阶段的精选流程，旨在确保数据集的高质量、多样性和挑战性。该流程涉及了数据的采集、清洗、标注以及后期的验证，确保了每个样本都能为多模态大语言模型在检测和推理布局丰富的多模态内容中的不一致性提供有效的测试案例。

特点

MMIR数据集作为首个评估多模态大语言模型在检测和推理多模态内容不一致性方面的基准，包含了534个具有挑战性的样本，跨越五个推理密集型的不一致性类别：事实矛盾、身份错误归因、上下文不匹配、数量差异以及时间/空间不一致性。这些样本的精心设计，为模型评估提供了多维度的挑战。

使用方法

使用MMIR数据集，研究者可以通过访问Huggingface平台上的数据集来获取测试样本。数据集的使用包括但不限于对多模态大语言模型进行评估，以及通过排行榜对比不同模型的表现。详细的评估细节可以在项目的eval文件夹中找到，其中包含了评估所需的所有信息和工具。

背景与挑战

背景概述

MMIR数据集，全称为Multimodal Inconsistency Reasoning，是由Qianqi Yan、Xin Eric Wang等研究人员于2025年构建的高质量、多元化的多模态推理基准。该数据集旨在评估多模态大型语言模型（MLLMs）在检测和推理布局丰富多模态内容中不一致性的能力。MMIR涵盖了五个推理密集型的不一致性类别：事实矛盾、身份误归、上下文不匹配、数量差异和时间/空间不连贯。该数据集的构建经历了精心设计的四个阶段，以确保提供具有挑战性的测试案例，对多模态推理领域产生了显著影响。

当前挑战

MMIR数据集面临的挑战主要包括：1）如何准确识别并推理多模态内容中的不一致性，这要求模型具备高度复杂的信息处理能力；2）数据集构建过程中的挑战，包括确保样本质量、多样性和挑战性，同时需要解决多模态数据标注的困难和一致性保证问题。此外，多模态推理模型的评价标准和方法也是当前研究的一个重点挑战。

常用场景

经典使用场景

MMIR数据集作为评估多模态大语言模型在检测和推理布局丰富多模态内容中不一致性的首个基准，其经典使用场景在于为研究者提供了一个平台，用以测试和提升模型在处理事实性矛盾、身份误归因、上下文不匹配、数量差异以及时空不连贯等不一致性类别的能力。

解决学术问题

该数据集解决了多模态推理领域中，如何有效评估模型在复杂不一致性场景下的推理能力的问题。通过MMIR，研究者可以明确模型在处理多模态内容时的薄弱环节，对于推动多模态推理技术的发展具有重大意义和影响。

衍生相关工作

MMIR数据集的推出催生了众多相关研究，如不一致性检测算法的改进、多模态推理模型的创新设计等。这些工作进一步拓宽了多模态推理的应用领域，并促进了相关技术的进步。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集