UnLOK-VQA
收藏arXiv2025-05-01 更新2025-05-07 收录
下载链接:
https://github.com/Vaidehi99/UnLOK-VQA
下载链接
链接失效反馈官方服务:
资源简介:
UnLOK-VQA数据集是一个用于评估从多模态大型语言模型(MLLMs)中删除特定不希望的知识的数据集。该数据集的创建过程包括自动生成流程,用于创建与目标数据点具有不同接近程度的样本,以评估泛化性和特异性,随后进行手动筛选,以保留高质量的样本。UnLOK-VQA数据集的创建旨在解决MLLMs在安全领域(如网络安全、生物武器、化学武器等)中可能泄露敏感信息的问题。
The UnLOK-VQA dataset is a benchmark for evaluating the removal of specific unwanted knowledge from multimodal large language models (MLLMs). Its creation pipeline incorporates an automatic generation process that produces samples with varying degrees of proximity to target data points to assess model generalization and specificity, followed by manual filtering to retain high-quality samples. The UnLOK-VQA dataset is designed to address the issue of sensitive information leakage by MLLMs in security-related domains such as cybersecurity, biological weapons, chemical weapons, and other relevant fields.
提供机构:
北卡罗来纳大学教堂山分校计算机科学系
创建时间:
2025-05-01
搜集汇总
数据集介绍

构建方式
UnLOK-VQA数据集的构建采用了一种创新的自动化流程与人工筛选相结合的方法。研究团队首先基于OK-VQA数据集,通过自动化管道生成不同接近目标数据点水平的样本,以评估模型的泛化性和特异性。这一过程包括对原始视觉问答数据进行扩展,生成重新表述的问题和图像变体,以及构建邻域数据点。随后通过严格的人工过滤保留高质量数据,确保数据集的精确性和可靠性。该方法不仅覆盖了多模态知识的删除评估需求,还通过分层设计实现了对模型编辑效果的细粒度分析。
特点
该数据集的核心特征体现在其多维度评估体系的设计上。UnLOK-VQA包含500个经过人工验证的样本,每个样本均由原始图像-问题-答案三元组、三个难度级别的重新表述图像、两类邻域图像、平均四个邻域问题以及三种重新表述问题构成。其独特价值在于:1) 通过精心设计的重新表述数据评估知识删除方法的泛化能力;2) 利用邻域数据量化模型编辑对相关知识的意外影响;3) 包含视觉和文本双模态攻击场景,真实模拟对抗环境。数据集还特别设计了不同接近度的样本层次,为评估提供了更丰富的分析维度。
使用方法
该数据集主要用于评估多模态大语言模型中的定向遗忘效果。研究人员可通过以下方式使用:1) 基础评估:使用原始样本测试模型编辑对目标知识的删除效率;2) 泛化测试:利用重新表述数据检验模型对抗多模态攻击的鲁棒性;3) 特异性分析:通过邻域数据测量编辑过程对非目标知识的影响。典型工作流程包括:首先应用模型编辑技术删除指定知识,然后使用数据集中的攻击方法尝试恢复被删除信息,最后通过改写分数、攻击成功率等指标量化防御效果。数据集特别适合用于开发新型防御机制与攻击方法的对比研究。
背景与挑战
背景概述
UnLOK-VQA是由北卡罗来纳大学教堂山分校和中国科学技术大学的研究团队于2024年提出的多模态大语言模型(MLLMs)敏感信息遗忘基准数据集。该数据集旨在解决MLLMs在预训练过程中可能无意记忆的敏感信息(如个人隐私或有害内容)的定向删除问题,填补了现有研究主要集中于单模态(文本)知识遗忘的空白。通过构建高质量的图文配对样本,并引入“攻防评估框架”,该数据集推动了多模态场景下模型编辑技术的可解释性与安全性研究,对促进AI伦理治理具有重要意义。
当前挑战
UnLOK-VQA面临的核心挑战体现在两方面:领域问题层面,多模态信息删除需同时处理文本与视觉模态的复杂关联,而现有方法难以平衡删除效率与模型知识完整性;构建过程层面,自动化生成具有不同泛化难度(如改写图像/问题)和邻近度(如邻域样本)的评估数据时,需克服语义一致性校验、多模态对齐等难题。具体挑战包括:1) 多模态攻击成功率(45.5%)显著高于单模态攻击;2) 编辑后的模型仍可能通过微调恢复30%已删除信息;3) 构建邻域数据时需精确控制与目标信息的语义距离以避免评估偏差。
常用场景
经典使用场景
UnLOK-VQA数据集在评估多模态大语言模型(MLLMs)中敏感信息的定向遗忘(targeted unlearning)方面具有经典应用场景。该数据集通过构建高质量的图像-文本对,支持对模型在删除特定多模态知识时的效能、泛化性和特异性进行系统评估。其核心场景包括对抗性攻击与防御框架下的多模态知识删除实验,例如通过白盒和黑盒攻击测试模型编辑方法的鲁棒性。
解决学术问题
UnLOK-VQA解决了多模态场景下信息删除评估的学术空白问题。传统研究集中于单模态(如文本)的遗忘方法,而该数据集首次提供了针对图像-文本联合知识的删除基准,支持对模型编辑技术在多模态攻击(如跨模态敏感信息提取)中的有效性进行量化。其意义在于揭示了多模态攻击成功率(45.5%)显著高于单模态攻击(图像32%/文本39%),并验证了通过隐藏状态擦除答案信息的最佳防御机制(攻击成功率降至15.7%)。
衍生相关工作
UnLOK-VQA衍生出多模态模型编辑领域的多项经典工作。其攻击-防御框架启发了后续研究如KEBench多模态知识编辑基准和MMEdit基线方法;基于Logit Lens的白盒攻击(如Probability Delta2攻击)推动了模型可解释性与安全性的交叉研究。数据集构建方法(如通过SDXL生成邻域图像)也被应用于Li等人(2024)的单图像遗忘研究中。
以上内容由遇见数据集搜集并总结生成



