five

MMKE-Bench

收藏
arXiv2025-03-01 更新2025-03-01 收录
下载链接:
https://mmke-bench-iclr.github.io/
下载链接
链接失效反馈
官方服务:
资源简介:
MMKE-Bench是一个全面的多模态知识编辑基准,由山东大学等机构的研究人员创建,旨在评估大型多模态模型在现实世界场景中编辑多样化视觉知识的能力。该数据集包含2940条知识和8363幅图像,涵盖了33个广泛类别,通过自动生成和人工验证的评价问题进行评估。数据集整合了视觉实体编辑、视觉语义编辑和用户特定编辑三种类型的任务,使用自由形式的自然语言来表示和编辑知识,为多模态知识编辑技术的评估设置了新的标准。

MMKE-Bench is a comprehensive multimodal knowledge editing benchmark developed by researchers from Shandong University and other institutions. It is designed to evaluate the capability of large multimodal models to edit diverse visual knowledge in real-world scenarios. The dataset comprises 2940 knowledge entries and 8363 images, spanning 33 broad categories, and is evaluated using automatically generated and manually verified evaluation questions. Three types of tasks are integrated into the dataset: visual entity editing, visual semantic editing, and user-specific editing. By utilizing free-form natural language to represent and edit knowledge, MMKE-Bench sets a new standard for the evaluation of multimodal knowledge editing technologies.
提供机构:
山东大学
创建时间:
2025-02-27
搜集汇总
数据集介绍
main_image_url
构建方式
MMKE-Bench 数据集的构建采用了多模态知识编辑的方法,通过收集原始知识、生成编辑知识、产生评估问题和人工验证四个步骤进行。首先,从各种图像和知识源(如多模态知识图、演示视频、Google和LLM生成)中收集原始知识。接着,通过应用反事实编辑对文本模态进行编辑,并替换图像模态中的图像来生成编辑知识。最后,根据可靠性、局部性、泛化性和可移植性四个原则自动生成评估问题和答案,并进行人工验证。整个数据集包含2,940个知识和8,363张图像,涵盖了33个广泛的类别。
特点
MMKE-Bench 数据集的特点在于其多样性和复杂性。它采用了自由形式的自然语言描述来表示和编辑知识,提供了更丰富和灵活的表达方式。数据集包含了三种类型的编辑任务:视觉实体编辑、视觉语义编辑和用户特定编辑。视觉实体编辑更新实体中心的视觉知识,视觉语义编辑针对复杂的物体行为和关系,如裁判手势和交通信号,而用户特定编辑则评估模型整合个性化知识的能力。此外,数据集还涵盖了广泛的类别和类型,以反映现实世界中的多模态信息。
使用方法
使用 MMKE-Bench 数据集的方法包括以下步骤:首先,根据数据集的文档和评估原则,了解数据集的结构和内容。然后,选择合适的编辑方法和大型多模态模型(LMM)进行实验。接下来,根据数据集中的评估原则,生成评估问题和答案,并进行实验。最后,根据实验结果分析模型的性能,并与其他模型进行比较。在实验过程中,需要注意数据集的多样性和复杂性,以及不同编辑任务的难度,以更好地理解模型的性能。
背景与挑战
背景概述
在大型语言模型(LLMs)和多媒体模型(LMMs)的知识编辑领域,现有的基准主要集中于实体级别的知识表示,例如简单的三元组(主题、关系、对象),这不足以捕捉现实世界中多媒体信息的复杂性。为了解决这一问题,研究人员提出了MMKE-Bench,这是一个全面的多模态知识编辑基准,旨在评估LMMs在现实场景中编辑多样化视觉知识的能力。该基准由来自山东大学、中国科学技术大学和北京理工大学的研究人员创建,并在ICLR 2025会议上发表。MMKE-Bench通过引入三种编辑任务(视觉实体编辑、视觉语义编辑和用户特定编辑)来解决现有基准的局限性,并使用自由形式的自然语言来表示和编辑知识,提供了一种更灵活和有效的格式。该基准包含2,940个知识和8,363张图片,跨越33个广泛的类别,并使用自动生成和人工验证的评价问题。该研究在三个突出的LMMs上评估了五种最先进的知识编辑方法,发现没有一种方法在所有标准上都表现出色,并且视觉和用户特定编辑特别具有挑战性。MMKEBench为评估多模态知识编辑技术的鲁棒性设定了新的标准,推动了这一快速发展的领域的进步。
当前挑战
MMKE-Bench所解决的领域问题是评估LMMs在现实场景中编辑多样化视觉知识的能力。构建过程中遇到的挑战包括:1) 现有的基准主要集中于实体级别的知识表示,这不足以捕捉现实世界中多媒体信息的复杂性;2) 需要开发一种新的基准来评估LMMs在现实场景中编辑多样化视觉知识的能力;3) 需要使用自由形式的自然语言来表示和编辑知识,提供更灵活和有效的格式。
常用场景
经典使用场景
MMKE-Bench是一个用于评估大型多模态模型(LMMs)在真实场景中编辑多样化视觉知识能力的基准数据集。它包含三种编辑任务:视觉实体编辑、视觉语义编辑和用户特定编辑。该数据集使用自由形式的自然语言来表示和编辑知识,提供了一个更灵活和有效的格式。MMKE-Bench由2940个知识和8363张图片组成,跨越33个广泛的类别,并且包含自动生成和人工验证的评估问题。
解决学术问题
MMKE-Bench解决了现有多模态知识编辑基准主要集中在实体级别知识表示为简单三元组的问题,这些三元组无法捕捉到现实世界中多模态信息的复杂性。通过引入三种编辑任务:视觉实体编辑、视觉语义编辑和用户特定编辑,MMKE-Bench为评估多模态知识编辑技术的鲁棒性设定了新的标准,推动了这一快速发展的领域。
衍生相关工作
MMKE-Bench的发布推动了多模态知识编辑领域的进一步研究。它不仅为研究人员提供了一个新的评估标准,还揭示了现有知识编辑方法在编辑复杂视觉语义和用户特定知识方面的局限性。这些发现激发了新的研究工作,旨在开发更先进的编辑技术,以更好地处理多模态信息。此外,MMKE-Bench的开放性和可访问性促进了该领域的合作和知识共享,进一步加速了多模态知识编辑技术的发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作