five

Multimodal Inconsistency Reasoning (MMIR)

收藏
arXiv2025-02-22 更新2025-02-27 收录
下载链接:
http://arxiv.org/abs/2502.16033v1
下载链接
链接失效反馈
官方服务:
资源简介:
MMIR是一个用于评估多模态大型语言模型在处理复杂布局内容中的不一致性推理能力的新基准。该数据集包含534个具有挑战性的样本,每个样本都包含五个推理密集型类别中的合成错误,这些类别包括事实矛盾、身份误归、上下文不匹配、数量不一致以及时间/空间不连贯。数据集通过四个阶段的管道进行策划,确保具有高质量、多样性和挑战性的测试案例。

MMIR is a novel benchmark for evaluating the inconsistent reasoning capabilities of multimodal large language models when handling complex layout content. This dataset consists of 534 challenging samples, each containing synthetic errors across five reasoning-intensive categories: factual contradictions, misattributed identities, contextual mismatches, numerical inconsistencies, and temporal/spatial incoherence. The dataset is curated through a four-stage pipeline to ensure high-quality, diverse and challenging test cases.
提供机构:
加州大学圣克鲁兹分校, eBay
创建时间:
2025-02-22
搜集汇总
数据集介绍
main_image_url
构建方式
MMIR数据集的构建方式是通过一个四阶段流程来确保高质量、多样化和具有挑战性的测试案例。首先,从网络和演示文稿领域手动选择521个原始艺术品。然后,使用DOM或python-pptx库解析每个艺术品,提取一组元素,并为每个元素分配一个唯一ID。接下来,使用MLLM o1-1217作为生成器,在标注的艺术品及其元素集上产生提案。这些提案经过自我评估循环后,保留2446个有效提案。最后,经过自动编辑和人工验证,得到534个最终验证的样本。这些样本涵盖了五种推理密集型类别:事实矛盾、身份误归因、上下文不匹配、数量差异和时间/空间不连贯。
特点
MMIR数据集的特点在于它是一个评估MLLM在推理多模态不一致性方面的能力的新基准。它包含534个具有挑战性的样本,每个样本都包含在五个推理密集型类别中人工注入的错误。这些类别包括事实矛盾、身份误归因、上下文不匹配、数量差异和时间/空间不连贯。数据集的设计旨在挑战模型进行深入的跨模态推理,以识别和定位语义不匹配。MMIR不仅揭示了当前MLLM在处理多模态内容中不一致性推理的现实世界挑战方面的局限性,而且还为开发更强大的多模态推理系统提供了一个平台。
使用方法
MMIR数据集的使用方法包括两种评估设置:开放式和多项选择。在开放式设置中,模型接收修改后的艺术品,并生成一个自由形式的响应,以识别语义不匹配。这测试了模型在不依赖于预定义答案选项的情况下检测不一致性的能力。在多项选择设置中,模型接收修改后的艺术品,并带有结合了开放式提示和元素描述的提示。模型必须从这些选项中选择与引入的不一致对应的元素。评估是通过将MLLM的预测答案与真实值进行比较来进行的,对于开放式设置,使用o1-mini作为LLM判断器来映射模型的自由形式响应,然后计算准确率。
背景与挑战
背景概述
在大型语言模型(LLMs)和多媒体大型语言模型(MLLMs)领域,尽管模型在理解和推理方面取得了显著进展,但它们在处理现实世界中普遍存在的视觉-文本不一致性方面仍面临挑战。为了填补这一空白,研究人员提出了Multimodal Inconsistency Reasoning (MMIR)基准数据集。该数据集由加州大学圣克鲁兹分校和eBay的研究人员于2025年创建,旨在评估MLLMs在检测和推理复杂布局内容中的语义不匹配方面的能力。MMIR包含534个具有挑战性的样本,每个样本都包含五个推理密集型类别中的合成注入错误:事实矛盾、身份误归因、上下文不匹配、数量不一致和时间/空间不连贯。通过对六个最先进的MLLMs进行评估,发现具有专门的多模态推理能力的模型(如o1)在处理不一致性方面明显优于其他模型,而开源模型则特别容易受到不一致性错误的影响。MMIR的创建不仅揭示了当前MLLMs在处理现实世界挑战方面的局限性,也为开发更强大的多模态推理系统提供了一个平台。
当前挑战
MMIR数据集的研究背景和挑战主要体现在两个方面。首先,当前的多模态推理模型在处理现实世界中存在的视觉-文本不一致性方面存在显著挑战。这些不一致性可能包括事实矛盾、身份误归因、上下文不匹配、数量不一致和时间/空间不连贯等。MMIR数据集的创建旨在评估MLLMs在检测和推理这些不一致性方面的能力。其次,构建MMIR数据集本身也面临一系列挑战。这些挑战包括如何设计合理的错误类型和评估指标,如何生成具有挑战性的样本,以及如何确保样本的多样性和真实性。此外,由于MMIR数据集涉及多媒体内容,因此在数据采集、标注和验证过程中需要投入大量的人力和物力资源。
常用场景
经典使用场景
Multimodal Inconsistency Reasoning (MMIR) 数据集是一个用于评估多模态大型语言模型 (MLLM) 在处理现实世界中存在不一致性的视觉-文本输入时的推理能力的新基准。该数据集包含 534 个具有挑战性的样本,每个样本都包含在五个推理密集型类别中合成的错误:事实矛盾、身份误归属、上下文不匹配、数量不一致和时空不一致。MMIR 数据集被设计用来评估模型在检测和推理复杂、布局丰富的内容(如网页、演示文稿和海报)中的语义不匹配的能力。
解决学术问题
MMIR 数据集解决了现有 MLLM 模型主要在一致的视觉-文本输入上进行训练和测试的问题,而忽略了现实世界中可能存在的不一致性。通过引入合成的不一致性,MMIR 数据集评估了 MLLM 模型在处理真实世界布局丰富内容中的语义不匹配的能力。此外,MMIR 数据集还揭示了现有 MLLM 模型在处理多模态不一致性推理方面的局限性,并为未来研究提供了方向。
衍生相关工作
MMIR 数据集衍生了多项相关研究工作,例如,一些研究探索了如何利用 MMIR 数据集来改进 MLLM 模型的推理能力。此外,一些研究还尝试了不同的提示方法,如 Chain-of-Thought (CoT) 和 Set-of-Mark (SoM) 方法,以提高 MLLM 模型在处理 MMIR 数据集时的性能。这些研究工作为进一步探索 MLLM 模型在处理多模态不一致性推理方面的能力提供了重要的参考和指导。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作