MMKU-Bench

Hugging Face2026-02-03 更新2026-02-05 收录

下载链接：

https://huggingface.co/datasets/baochenfu/MMKU-Bench

下载链接

链接失效反馈

官方服务：

资源简介：

MMKU-Bench是一个用于系统评估大型多模态模型（LMMs）中知识更新能力的综合性基准测试数据集。该数据集涵盖了更新知识和先前未知知识，包含超过25,000个知识实例，并配有超过49,000张图像，覆盖了331个细粒度类型（包括156个更新类型和175个未知类型），涉及多样化的视觉知识领域。数据集结构分为'unknown'和'updated'两个主要目录，每个目录下包含图像文件夹和相应的JSON/JSONL格式的训练与测试数据文件。

创建时间：

2026-02-02

搜集汇总

数据集介绍

构建方式

在评估多模态大模型知识更新能力的背景下，MMKU-Bench的构建采用了系统化的知识实例采集与标注策略。该数据集精心筛选了涵盖广泛视觉知识领域的331个细粒度知识类型，并针对知识状态将其划分为已更新知识与先前未知知识两大类别。通过人工与自动化流程相结合的方式，为超过25,000个知识实例匹配了总计49,000余张相关图像，确保了数据对的多模态属性与高质量对齐，从而构建出一个结构清晰、覆盖全面的基准测试集。

特点

MMKU-Bench的核心特点在于其专注于多模态知识更新的评估维度，并具备精细的知识类型划分。数据集不仅规模庞大，包含数万级别的知识-图像对，更通过“已更新”与“未知”两种知识状态的明确区分，为模型能力评估提供了独特的双重视角。其知识类型覆盖了多样化的视觉领域，且划分至数百个细粒度类别，使得评测能够深入考察模型在具体、微观知识层面的理解与更新性能，具有高度的专业性与针对性。

使用方法

使用MMKU-Bench进行评测时，需遵循其预设的文件结构加载数据。数据集主要包含‘unknown’与‘updated’两个子集，每个子集下均提供了训练与测试用的JSON(L)格式标注文件以及对应的图像文件夹。研究者可通过解析这些文件，获取图文对及其所属的知识类型与状态标签，进而设计实验让多模态模型进行知识回答或判断任务。通过对比模型在已更新知识集和未知知识集上的表现差异，可以系统性地量化其知识更新与吸收新知识的能力。

背景与挑战

背景概述

随着多模态大语言模型（LMMs）在视觉与语言融合任务中的广泛应用，其知识更新能力成为评估模型适应性与泛化性能的关键维度。MMKU-Bench由研究团队于2024年构建，旨在系统性地评测LMMs在多模态知识更新方面的表现。该数据集涵盖超过2.5万个知识实例与4.9万张图像，跨越331个细粒度类型，包括已更新知识与未知知识两大类别，涉及多样化的视觉知识领域。其核心研究问题聚焦于如何量化模型对动态演变知识的理解与整合能力，为多模态人工智能的发展提供了重要的评估基准。

当前挑战

MMKU-Bench所针对的领域挑战在于多模态知识更新的复杂性与动态性。传统模型往往难以同步适应视觉知识的快速演变，尤其是在处理未知或新涌现的知识类型时，模型的泛化能力面临严峻考验。在构建过程中，数据收集与标注面临双重困难：一方面，需要确保知识实例的时效性与准确性，涵盖广泛且细粒度的视觉领域；另一方面，图像与文本的对齐需保持高度一致性，以避免引入噪声或偏差，这对数据质量控制提出了极高要求。

常用场景

经典使用场景

在视觉知识领域，多模态大模型的评估往往面临知识更新与未知知识识别的双重挑战。MMKU-Bench作为一项综合性基准测试，其经典使用场景在于系统评估模型在更新知识和未知知识上的表现。该数据集通过涵盖331个细粒度类型，包括156个更新类型和175个未知类型，为研究者提供了一个标准化的测试平台，用以衡量模型在视觉知识理解与更新方面的能力，从而推动多模态智能系统在动态知识环境中的适应性研究。

解决学术问题

MMKU-Bench主要解决了多模态大模型中知识更新机制的评估难题，以及模型对未知知识识别能力的量化问题。在学术研究中，该数据集帮助研究者深入探究模型如何整合新知识并保持对旧知识的记忆，同时揭示模型在遇到未见视觉知识时的泛化性能。其意义在于为多模态知识更新领域提供了首个大规模、细粒度的基准，促进了相关理论框架的发展，并对模型鲁棒性与可扩展性研究产生了深远影响。

衍生相关工作

围绕MMKU-Bench，已衍生出多项经典研究工作，主要集中在多模态知识更新算法设计、视觉知识表示学习以及基准测试方法优化等方面。例如，研究者基于该数据集开发了动态知识融合模型，以提升模型在更新类型上的性能；同时，也有工作利用其未知知识部分探索零样本学习策略，推动模型在开放世界中的适应能力。这些衍生工作不仅丰富了多模态研究的内涵，也为后续基准建设提供了重要参考。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集