ComprehendEdit

Name: ComprehendEdit
Creator: 哈尔滨工业大学计算机学院、鹏城实验室、深圳先进技术研究院、西北工业大学计算机学院、广东省计算微电子重点实验室、中国科学院深圳先进技术研究院
Published: 2024-12-17 19:41:49
License: 暂无描述

arXiv2024-12-17 更新2024-12-19 收录

下载链接：

https://github.com/yaohui120/ComprehendEdit

下载链接

链接失效反馈

官方服务：

资源简介：

ComprehendEdit是一个综合的多模态知识编辑数据集，由哈尔滨工业大学等机构创建，旨在评估多模态语言模型在知识编辑中的表现。数据集包含8个不同任务，涵盖对象存在、对象识别、场景信息等多个领域，总样本数为17,932条。数据集的创建过程结合了多个现有数据集，并通过预训练模型生成等效输入以确保多样性和全面性。该数据集主要用于解决多模态知识编辑中的知识泛化和保留问题，为未来研究提供了新的评估框架和基准方法。

ComprehendEdit is a comprehensive multimodal knowledge editing dataset developed by Harbin Institute of Technology and other institutions, aiming to evaluate the performance of multimodal language models in knowledge editing tasks. The dataset includes 8 distinct tasks covering multiple domains such as object existence, object recognition and scene information, with a total of 17,932 samples. Its creation process integrates multiple existing datasets, and generates equivalent inputs via pre-trained models to ensure diversity and comprehensiveness. This dataset is mainly used to address the issues of knowledge generalization and retention in multimodal knowledge editing, providing a novel evaluation framework and benchmark methods for future research.

提供机构：

哈尔滨工业大学计算机学院、鹏城实验室、深圳先进技术研究院、西北工业大学计算机学院、广东省计算微电子重点实验室、中国科学院深圳先进技术研究院

创建时间：

2024-12-17

原始信息汇总

ComprehendEdit 数据集概述

数据集简介

ComprehendEdit 是一个综合的多模态知识编辑基准，包含八个多样化的任务，来源于多个数据集。该基准引入了两个新的评估指标：知识泛化指数（KGI） 和 知识保留指数（KPI），用于评估知识编辑对领域内样本的影响。

数据集结构

数据集的组织结构如下：

数据样本格式

测试集中的每个样本格式如下：

[{ "image": "GQA/images/2405722.jpg", "question": "What is this bird called?", "rephrase": "What is the birds name?", # for Text-Generality "answer": "parrot", "source": "GQA", "Category": "object recognition", "pid": 0, "img_topk": [...], # pid of the image topk nearest samples in test set "txt_topk": [...], # pid of the text topk nearest samples in test set "img_last_topk": [...], # pid of the image topk farthest samples in test set "txt_last_topk": [...], # pid of the text topk farthest samples in test set "ori_rt_img_topk": [...], # pid of the image topk nearest samples in ComprehendEdit_ori_right.json "ori_rt_txt_topk": [...], # pid of the text topk nearest samples in ComprehendEdit_ori_right.json "ori_rt_img_last_topk": [...], # pid of the image topk farthest samples in ComprehendEdit_ori_right.json "ori_rt_txt_last_topk": [...], # pid of the text topk farthest samples in ComprehendEdit_ori_right.json "locality_prompt": "when does twice upon a time come out", # for Text-Locality "locality_ground_truth": "...", "multimodal_locality_image": "...", # for Multimodal-Locality "multimodal_locality_prompt": "...", "multimodal_locality_ground_truth": "..."}, ...]

数据集详情

数据集的详细信息如下表所示：

任务	训练集	测试集	来源
物体识别	1471	491	GQA
物体属性	2227	735	GQA
物体计数	2282	705	GQA
物体存在性	1506	503	TallyQA
场景信息	2067	787	GQA
数值推理	1709	530	VSR
空间关系	1554	519	TextVQA
文本识别	634	212	MathVista
总计	13450	4482

数据集来源

数据集来源于以下几个基准：

数据集下载

数据集可以从以下链接下载：下载链接

搜集汇总

数据集介绍

构建方式

ComprehendEdit数据集通过整合来自多个数据源的八种不同任务构建而成，涵盖了从对象识别到空间关系推理等多种多模态任务。数据集的构建过程中，研究者从GQA、TallyQA、VSR、TextVQA和MathVista等多个现有数据集中提取样本，确保了任务的多样性和广泛性。每个任务的训练和测试集比例大致为3:1，总样本量达到17,932个。此外，数据集还引入了新的评估指标，如知识泛化指数（KGI）和知识保留指数（KPI），以更全面地评估多模态知识编辑的效果。

使用方法

ComprehendEdit数据集主要用于评估多模态大语言模型（MLLMs）的知识编辑能力。研究者可以通过该数据集对模型进行微调，评估其在不同任务上的表现，特别是编辑操作对模型在同一领域内样本上的影响。数据集提供了详细的任务分布和评估指标，研究者可以使用这些指标来衡量模型的可靠性、泛化能力以及对无关样本的保留能力。此外，数据集还提供了基线方法Hierarchical InContext Editing（HICE），供研究者进行对比和进一步优化。

背景与挑战

背景概述

随着大规模多模态语言模型（MLLMs）在自然语言处理和视觉理解领域的革命性进展，这些模型在处理复杂任务时展现出强大的能力。然而，这些模型往往包含过时或不准确的信息，导致其在知识编辑方面的评估存在局限性。现有的多模态知识编辑评估方法通常局限于狭窄的任务，未能全面评估模型在领域内样本上的表现。为了解决这些问题，哈尔滨工业大学、鹏城实验室、深圳先进技术研究院等机构的研究人员于2025年推出了ComprehendEdit数据集。该数据集包含八个多样化的任务，旨在通过引入知识泛化指数（KGI）和知识保留指数（KPI）等新指标，全面评估多模态知识编辑的效果，并为未来的研究提供了新的视角。

当前挑战

ComprehendEdit数据集的构建和应用面临多重挑战。首先，现有的多模态知识编辑评估方法任务覆盖范围有限，无法全面捕捉MLLMs的多功能性，如空间推理能力。其次，依赖AI生成的内容可能导致评估结果的不准确，因为生成的图像可能引入不可预测的内容偏移。此外，当前的评估方法仅使用领域外的样本进行局部性评估，忽略了编辑对领域内知识的潜在影响。ComprehendEdit通过引入全面的任务覆盖、不依赖合成内容的评估指标以及领域内样本的评估，揭示了现有方法在这些方面的不足，并为未来的研究提供了改进方向。

常用场景

经典使用场景

ComprehendEdit 数据集的经典使用场景主要集中在多模态知识编辑任务中，特别是在评估和改进多模态大语言模型（MLLMs）的知识编辑能力。该数据集通过提供多样化的任务和样本，帮助研究人员评估模型在编辑特定知识时的可靠性、通用性和局部性。例如，研究人员可以使用该数据集来测试模型在纠正图像描述错误时的表现，确保模型在编辑后能够正确回答相关问题，同时保持对无关问题的回答不变。

解决学术问题

ComprehendEdit 数据集解决了多模态知识编辑领域中的多个学术问题。首先，它提供了一个全面的评估框架，能够评估模型在编辑知识时的泛化能力和知识保留能力。其次，通过引入新的评估指标（如知识泛化指数 KGI 和知识保留指数 KPI），该数据集揭示了现有方法在处理多模态数据时的局限性，特别是在保持模型对同领域样本的正确性方面的挑战。这为未来的研究提供了改进方向，推动了多模态知识编辑技术的发展。

实际应用

ComprehendEdit 数据集在实际应用中具有广泛的应用前景。例如，在智能客服系统中，模型可能需要根据最新的信息更新其知识库，以确保回答的准确性。通过使用该数据集，研究人员可以开发出能够有效编辑和更新知识的模型，从而提高系统的响应准确性和用户体验。此外，在教育、医疗等领域，多模态知识编辑技术也可以用于更新和纠正模型对特定领域知识的理解，提升模型的实用性和可靠性。

数据集最近研究