CoVUBench
收藏arXiv2026-05-05 更新2026-05-08 收录
下载链接:
https://huggingface.co/datasets/herbwood27/CoVUBench
下载链接
链接失效反馈官方服务:
资源简介:
CoVUBench是由中央大学团队构建的首个专注于视觉语言模型版权内容遗忘评估的基准数据集,包含20个程序化生成的合成版权概念蓝图。数据集通过结构化JSON对象定义虚构角色和商标的核心语义与视觉属性,并生成包含多样化视觉布局(如背景、视角)和领域表现(如3D模型、T恤图案)的多模态数据。其构建过程采用LLM引导的生成流程,确保内容合法且避免真实IP复制,旨在解决LVLMs中跨模态版权内容的鲁棒遗忘评估难题,为版权持有者与模型部署者提供标准化测试工具。
CoVUBench is the first benchmark dataset focused on copyright content forgetting evaluation for large vision-language models (LVLMs), developed by a team from National Central University. It consists of 20 programmatically generated synthetic copyright concept blueprints. The dataset defines the core semantic and visual attributes of fictional characters and trademarks via structured JSON objects, and generates multimodal data with diverse visual layouts (e.g., backgrounds, perspectives) and domain representations (e.g., 3D models, T-shirt patterns). Its construction adopts an LLM-guided generation pipeline to ensure content legality and avoid replication of real intellectual property (IP). This work aims to address the challenge of robust forgetting evaluation of cross-modal copyright content in LVLMs, and provides standardized testing tools for copyright holders and model deployers.
提供机构:
中央大学·人工智能系; 中央大学·高级影像科学、多媒体与电影研究生院
创建时间:
2026-05-05
原始信息汇总
数据集概述
数据集名称: CoVUBench
发布机构: herbwood27
论文: 已被 LREC 2026 接收(arXiv:2605.03547)
数据集地址: https://huggingface.co/datasets/herbwood27/CoVUBench
研究背景与目标
CoVUBench 是首个专门用于评估大型视觉语言模型(LVLMs)版权内容遗忘(Copyright Unlearning)效果的基准数据集。该数据集旨在解决 LVLMs 在训练后可能记忆并生成受版权保护的视觉内容(如角色、Logo)的问题,通过机器遗忘技术移除特定内容,并评估其有效性。
数据集核心特点
- 数据来源: 使用程序化生成的、在法律上安全的合成数据。
- 视觉变化: 包含系统性视觉变化(如构图变化、不同领域表现形式),确保评估的鲁棒性和现实性。
- 评估协议: 多模态评估协议,从版权方角度评估遗忘效果,从部署方角度评估模型通用能力的保持。
数据集结构
每条数据包含以下特征:
| 特征字段 | 类型 | 说明 |
|---|---|---|
| image | image | 合成的版权图像(角色或Logo) |
| question | string | VQA 问题 |
| answer | string | 标准答案 |
| name | string | 合成概念的名称 |
| type | string | 领域类型(character 或 logo) |
| keywords | string | 核心属性及专有术语,用于精确匹配评估 |
| question_type | string | 模态类型(Single-modal QA 或 Multi-modal QA) |
数据划分
| 数据划分 | 样本数 | 用途 |
|---|---|---|
| finetune | 2,000 | 第一阶段微调,模拟模型记忆合成版权概念 |
| forget5 | 100 | 遗忘目标子集(训练数据的 5%) |
| forget10 | 200 | 遗忘目标子集(训练数据的 10%) |
| forget15 | 300 | 遗忘目标子集(训练数据的 15%) |
| forget20 | 400 | 遗忘目标子集(训练数据的 20%) |
| retain | 420 | 非阻断概念相关的 VQA 对,用于评估通用能力保持 |
| test | 380 | 留出集,包含新颖的视觉构成和文本查询,评估遗忘鲁棒性 |
数据集规模
- 总下载大小: 7,894,357,521 字节
- 总数据集大小: 8,256,982,016 字节
引用
bibtex @article{kwon2026erase, title={Erase Persona, Forget Lore: Benchmarking Multimodal Copyright Unlearning in Large Vision Language Models}, author={JuneHyoung Kwon and JungMin Yun and YoungBin Kim}, journal={arXiv preprint arXiv:2605.03547}, year={2026} }
搜集汇总
数据集介绍

构建方式
CoVUBench的构建始于生成结构化的人物蓝图(Persona Blueprint),这些蓝图以JSON格式定义了合成版权概念的语义与视觉属性。随后,利用Gemini Pro 2.5模型生成20个独特的虚构人物与标志蓝图。基于这些蓝图,通过身份保持的生成技术,在统一模板中填充场景、背景、视角与领域等变量,产生涵盖构成变化与领域表现的多样化视觉语料。同时,系统性地生成单模态与多模态的视觉问答(VQA)对,以评估模型对概念知识关联的遗忘程度。最后,通过交叉检索商标数据库与反向图像搜索工具,过滤掉与真实版权作品相似的样本,确保数据集的合法性与安全性。
特点
CoVUBench具备两大显著特点。首先,它通过程序化生成的合成数据规避了真实版权材料的法律风险,同时模拟了现实世界中版权内容的多形态表现,如不同背景、场景及衍生品(如3D动作模型、T恤印花),从而实现对遗忘泛化能力的稳健评估。其次,该基准引入了利益相关者中心化的评估协议,从版权持有者与模型部署者双重视角出发,设计遗忘效力、泛化性、语义分歧度以及流畅性、特异性、通用能力等六项指标,系统量化内容去除与模型效用保持之间的权衡关系。
使用方法
CoVUBench的使用遵循两阶段流水线。第一阶段,在基础LVLM上对合成版权概念进行微调,模拟模型对受保护内容的记忆。第二阶段,应用多种机器遗忘算法(如梯度上升、梯度差异、KL散度正则化、直接偏好优化及负偏好优化)对微调后的模型进行遗忘处理。评估时,分别计算在遗忘集、留存集及外部基准(如POPE、MMBench)上的指标,以全面衡量遗忘算法在跨模态场景下的效力与副作用。数据集及相关代码已公开在Hugging Face平台,便于研究者复现与扩展实验。
背景与挑战
背景概述
CoVUBench是由韩国中央大学人工智能系的研究团队于2026年提出的首个专用于评估大型视觉语言模型(LVLMs)中版权内容遗忘效果的基准数据集。该研究以JuneHyoung Kwon和JungMin Yun为主要贡献者,直面多模态大模型在训练过程中无意记忆并重现受版权保护的视觉内容(如角色形象与品牌标识)所引发的侵权风险。随着“被遗忘权”在AI领域的兴起,模型卸载技术被视为去除训练数据中特定版权信息的可行方案,但现有的评估框架多聚焦于纯文本模型,缺乏面向跨模态概念擦除的鲁棒性测试。CoVUBench应运而生,通过程序化生成的合成版权内容与系统性视觉变化,为评估遗忘的泛化能力提供了标准化工具,其综合评估协议兼顾版权持有者的擦除需求与模型部署者的效用保全,对推动负责任的AI发展具有奠基性影响。
当前挑战
多模态版权遗忘面临三大核心挑战。首先,版权概念在真实世界中形态多样,例如同一角色可表现为二维卡通、三维模型或T恤印花,评估必须检验模型是否遗忘底层概念而非特定实例,而非单一训练样本的移除。其次,跨模态推理的复杂性要求彻底切断视觉识别与相关文本知识之间的联结,仅通过文本查询不足以验证视觉概念的消亡。此外,构建CoVUBench本身亦充满挑战:为避免使用真实版权素材引发的法律与伦理风险,团队需生成合法的合成数据,并确保其多样性以模拟现实中的视觉变体。同时,还需设计包含文本与视觉模态的问答对,以诊断模型是否真正剥离了视觉-知识链接,而当前测评方法多缺乏对此类细微之处的捕捉能力。
常用场景
经典使用场景
CoVUBench作为首个专为评估大型视觉语言模型中版权内容遗忘效果而设计的基准数据集,其经典使用场景在于系统性衡量模型对特定版权概念的跨模态遗忘能力。该数据集通过程序化生成的合成版权内容,涵盖角色与商标两大高风险领域,并引入组合变化(如不同背景、视角)与领域表现(如3D手办、T恤印花)等视觉多样性,以评估遗忘算法的泛化性。研究者利用该基准,可在受控条件下模拟版权持有者要求删除特定内容的情境,并检验模型在视觉与文本双模态中是否真正实现了概念层面的知识抹除。
实际应用
在实际应用中,CoVUBench为互联网内容平台、AI模型服务商及版权管理机构提供了标准化工具,用以审核与验证大模型是否能够合规地移除特定版权内容。例如,当角色形象或品牌商标权利人依据“被遗忘权”提出删除请求时,CoVUBench可评估现有遗忘算法能否在保留模型对话与推理能力的前提下,有效抹去跨模态关联的知识。这直接服务于模型发布前的版权合规检测、个性化内容过滤系统的效果验证,以及行业自律与监管框架下负责任AI的落地部署。
衍生相关工作
CoVUBench的提出催生了一系列相关经典工作,推动了多模态遗忘领域的系统化研究。其综合指标集与评价范式被后续工作借鉴,用于设计更鲁棒的遗忘算法,如结合视觉对抗扰动与知识蒸馏的跨模态概念消除技术。该基准中揭示的“模态差距”现象启发了学者探索视觉-语言联合解耦策略,衍生出面向角色与商标差异化解遗忘的专门方法论。此外,围绕CoVUBench的人工合成数据生成流程,研究人员进一步发展了更高效的身份保持图像生成与对齐技术,为构造安全、可控的多模态评估环境奠定了基础。
以上内容由遇见数据集搜集并总结生成



