neurips26/MultimodalUnlearningEvalBenchmark
收藏Hugging Face2026-05-01 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/neurips26/MultimodalUnlearningEvalBenchmark
下载链接
链接失效反馈官方服务:
资源简介:
该数据集提供了一个用于研究多模态机器遗忘中度量不一致性问题的评估输出集合。它支持《多模态机器遗忘中的度量不可靠性(NeurIPS 2026)》论文中结果的复现。数据集包含多个JSON文件,涵盖了视觉问答(VQA)基准测试结果、单模态基线结果、统一质量评分(UQS)权重、方法排名、相关性和分歧分析、知识可恢复性(KR)试点结果以及跨架构验证(BLIP-2)等内容。该数据集旨在评估五种标准的遗忘度量标准,并揭示这些度量标准产生的冲突排名及其在测量知识可恢复性方面的不足。
This dataset provides evaluation outputs for studying metric inconsistency in multimodal machine unlearning. It supports reproducibility of results in the paper Metric Unreliability in Multimodal Machine Unlearning (NeurIPS 2026). The dataset includes multiple JSON files covering results on VQA benchmarks, unimodal baseline results, learned weights for Unified Quality Score (UQS), method rankings across metrics, correlation and disagreement analysis, Knowledge Recoverability (KR) pilot results, and cross-architecture validation (BLIP-2). The benchmark evaluates five standard unlearning metrics and reveals their conflicting rankings and inadequacy in measuring knowledge recoverability.
提供机构:
neurips26
搜集汇总
数据集介绍

构建方式
该基准测试数据集旨在服务于多模态机器遗忘领域中度量标准不一致性的研究。其构建建立在现有的多模态视觉问答基准之上,具体整合了MLLMU-Bench、UnLOK-VQA、MMUBench等数据集,并引入CIFAR-10作为单模态基线。数据集的组成涵盖了七类核心文件,包括多模态与单模态遗忘效果结果、统一质量评分权重、方法排名表、相关性分析结果、知识可恢复性初步实验数据以及跨架构验证结果,这些文件共同构成了全面评估遗忘度量标准性能的基础。
特点
该数据集的核心特点在于其专门聚焦于揭示多模态机器遗忘任务中不同度量标准之间的冲突与不一致性。它系统地评估了五种标准遗忘度量——遗忘准确率、保留准确率、成员推理攻击、激活距离与JS散度,并创新性地引入了知识可恢复性这一新的评估维度。实验数据表明,这些传统度量会生成相互矛盾的方法排名,且无法有效衡量模型的知识可恢复能力,这一发现为该领域的评估框架带来了深刻反思。
使用方法
研究人员可通过加载各配置下的JSON文件,直接复现论文中报道的所有实验结果。例如,使用Python的json库读取multimodal_results.json,即可获得VQA基准上的多模态遗忘评测分数。该数据集的设计注重可复现性,所有分析结果和排名表均以结构化的格式存储,便于用户进行进一步的相关性分析、差异分析和跨模型验证,从而深入探究多模态遗忘中度量标准失效的根本原因。
背景与挑战
背景概述
多模态机器学习(Multimodal Machine Learning)作为人工智能领域的核心分支,旨在融合视觉与语言信息以执行复杂任务,如视觉问答(VQA)。然而,随着隐私法规(如GDPR)的日益严格,机器遗忘(Machine Unlearning)技术成为确保模型能够在移除特定数据后保持性能的关键研究方向。在此背景下,MultimodalUnlearningEvalBenchmark数据集于2025年由匿名研究团队为NeurIPS 2026会议论文《Metric Unreliability in Multimodal Machine Unlearning》创建,旨在系统评估多模态遗忘场景下评估指标的可靠性。该数据集整合了MLLMU-Bench、UnLOK-VQA、MMUBench及CIFAR-10等来源,涵盖七个配置文件,提供了从遗忘率(FA)到知识可恢复性(KR)等多维度评价输出,其对多模态遗忘领域的影响力在于揭示了现有指标间的严重不一致性,为后续研究奠定了方法论基础。
当前挑战
该数据集解决了多模态机器遗忘评估中的核心挑战:当前广泛使用的遗忘指标(如遗忘准确性、保留准确性、成员推理攻击、激活距离及JS散度)在对比不同遗忘方法时会产生相互矛盾的排名,导致无法准确度量模型对已遗忘知识的真实遗忘程度(即知识可恢复性)。这种度量不可靠性源于多模态数据在视觉与语言模态间的复杂交互,使得单一指标易受分布偏移或对抗性扰动影响。此外,构建过程中面临多重困难:需要从多个异构源数据集(涵盖图像-文本对及单模态图像)中提取标准化结果,同时设计跨架构验证(如BLIP-2)以确保结论的泛化性,并开发统一质量评分(UQS)以整合矛盾度量,这要求平衡计算效率与评估鲁棒性。
常用场景
经典使用场景
该数据集是专为多模态机器遗忘评估设计的基准测试工具,其最经典的使用场景在于衡量视觉语言模型(VLM)在遗忘特定知识后的性能退化程度。研究者通常利用该数据集中的VQA基准(如MLLMU-Bench、UnLOK-VQA、MMUBench)来评估模型在图像-文本任务中遗忘样本的准确性、保留样本的完整性以及抵御成员推断攻击的能力。通过统一质量评分(UQS)和学习到的权重,该数据集还能对遗忘方法进行多维度排序,从而识别出在不同评估指标下表现最优的技术路径。这一基准为跨模型架构(如BLIP-2)的遗忘效果验证提供了标准化框架。
解决学术问题
该数据集直面多模态机器遗忘领域中的关键学术困境——评估指标的不可靠性问题。研究发现,传统的五大遗忘指标(遗忘准确性、保留准确性、成员推断攻击、激活距离和JS散度)在排名结果上存在显著冲突,且无法有效衡量知识可恢复性(KR)。该数据集通过系统的相关性与不一致性分析,揭示了当前评估体系的内在矛盾,推动了学术界对遗忘度量标准的反思。其意义在于为构建更鲁棒、更全面的评估协议提供了实证基础,从而引导研究者超越单维度的性能比较,转向对遗忘本质——即知识永久性消除——的深入探索。
衍生相关工作
该数据集催生了一系列关于多模态遗忘度量改进的后续研究。其中,基于统一质量评分(UQS)的权重学习策略被延伸为自适应评估框架,允许研究者根据特定任务动态调整各指标的贡献度。知识可恢复性(KR)概念的提出则衍生出新型遗忘验证协议,例如结合对抗性恢复攻击来测试遗忘深度的工作。此外,指标不一致性的分析结果激发了针对VLM的成员推断防御机制研究,以及从单模态遗忘向多模态场景拓展的理论探索。这些衍生工作共同构建了一个更严谨的学术生态,推动机器遗忘从经验性实践走向理论化范式的转型。
以上内容由遇见数据集搜集并总结生成



