MMKC-Bench

Name: MMKC-Bench
Creator: 山东大学、中国科学院大学、上海交通大学、南京大学、南京邮电大学、江南大学、香港科技大学、上海人工智能实验室
Published: 2025-05-26 12:39:30
License: 暂无描述

arXiv2025-05-26 更新2025-05-28 收录

下载链接：

https://github.com/MLLMKCBENCH/MLLMKC

下载链接

链接失效反馈

官方服务：

资源简介：

MMKC-Bench是一个用于评估大型多模态模型在语境-记忆和语境间场景下的知识冲突的基准数据集。该数据集包括1573个知识实例和3381张图像，涵盖了23个广泛的知识类别。数据集通过自动化流程收集，并经过人工验证。该数据集旨在帮助研究多模态知识冲突，并提升多模态RAG系统的开发。

MMKC-Bench is a benchmark dataset designed to evaluate large multimodal models on knowledge conflicts in intra-contextual memory and inter-contextual scenarios. This dataset comprises 1,573 knowledge instances and 3,381 images, spanning 23 broad knowledge categories. It was collected via an automated workflow and manually verified. This dataset aims to facilitate research on multimodal knowledge conflicts and advance the development of multimodal RAG systems.

提供机构：

山东大学、中国科学院大学、上海交通大学、南京大学、南京邮电大学、江南大学、香港科技大学、上海人工智能实验室

创建时间：

2025-05-26

搜集汇总

数据集介绍

构建方式

MMKC-Bench数据集的构建采用了系统化的多阶段流程，首先通过人工筛选与大型语言模型辅助的方式，从维基百科摘要和Google图片中收集23个广泛类别的原始多模态知识。随后利用LLMs进行反事实编辑生成冲突知识，通过修改实体名称、语义内容或事实属性来模拟真实冲突场景。为确保数据质量，所有生成的问题、答案及冲突知识均经过多轮人工验证与过滤，最终形成包含1,573个知识实例和3,381张图像的高质量基准。

特点

该数据集创新性地涵盖实体识别冲突、实体知识冲突和视觉语义冲突三大类型，全面模拟检索增强生成框架下的多模态知识冲突场景。其显著特点包括：严格区分上下文记忆冲突与跨上下文冲突两种评估场景，采用多选题和开放式问题双轨制评估体系，以及通过人工验证确保每个知识实例平均配备2.15张高质量图像。数据集覆盖人物、建筑、手势等23个细粒度类别，在冲突粒度和模态多样性方面具有显著优势。

使用方法

研究者可通过标准化的视觉问答格式使用该基准，输入包含冲突证据的多模态上下文后，评估模型在行为分析和冲突检测两方面的表现。行为分析任务记录模型在内部参数知识与外部证据之间的选择倾向，冲突检测任务则要求模型识别冲突存在与否。基准提供完整的评估协议，包括原始答案率、对抗答案率等量化指标，支持对9种主流大语言模型进行系统评测。所有实验数据可通过GitHub开源代码库复现，确保研究可重复性。

背景与挑战

背景概述

MMKC-Bench是由山东大学、中国科学技术大学、上海交通大学等机构的研究团队于2025年提出的多模态知识冲突基准测试集，旨在解决大型多模态模型（LMMs）在检索增强生成（RAG）框架下面临的知识冲突问题。该数据集聚焦于事实性知识冲突，包含1,573个知识实例和3,381张图像，涵盖23个知识类别。通过自动化流程生成冲突知识并进行人工验证，MMKC-Bench填补了现有基准在上下文记忆冲突和跨上下文冲突评估上的空白，为多模态RAG系统的可靠性研究提供了重要工具。

当前挑战

MMKC-Bench针对三大核心挑战：首先，在领域问题层面，现有基准多关注单模态或内部记忆冲突，难以评估多模态环境下外部证据与参数化知识间的复杂冲突；其次，在构建过程中需克服跨模态对抗样本生成的难题，包括保持图像不变性同时修改文本描述以构造语义冲突；最后，数据质量保障面临双重考验，既要确保自动生成的冲突知识符合现实逻辑，又需通过人工验证维持评估问题的严谨性，这对标注一致性和规模效益平衡提出了较高要求。

常用场景

经典使用场景

MMKC-Bench作为评估多模态知识冲突的基准数据集，广泛应用于大型多模态模型（LMMs）在检索增强生成（RAG）框架下的行为分析。其经典使用场景包括模型在面临上下文记忆冲突和跨上下文冲突时的表现评估，特别是在实体识别冲突、实体知识冲突和视觉语义冲突三种典型冲突类型下的反应。通过多选和开放式问答形式，研究者能够全面考察模型在知识冲突情境下的决策倾向和可靠性。

衍生相关工作

该数据集衍生出多个重要研究方向：基于实体识别冲突的研究催生了视觉-文本对齐增强技术（如InternVL3的跨模态预训练改进）；针对知识级冲突的发现推动了认知推理数据增强方法（如Qwen2.5-VL的三阶段训练框架）；其冲突检测任务设计启发了后续工作如WikiConflict对自然矛盾抽取的扩展。MMKC-Bench的细粒度评估范式更被PCA-Bench等新基准借鉴，用于评估感知-认知-行动链中的模型行为。

数据集最近研究