ReMem
收藏arXiv2026-05-05 更新2026-05-08 收录
下载链接:
https://huggingface.co/datasets/herbwood27/Remem
下载链接
链接失效反馈官方服务:
资源简介:
ReMem是由中央大学与KT公司联合构建的多模态记忆基准数据集,旨在解决大视觉语言模型(LVLM)在遗忘学习任务中基础记忆阶段的失效问题。该数据集包含100条虚构身份的全方位属性(如姓名、职业、医疗记录等),每个身份关联100组问答对(单跳与多跳问题比例7:3)及100张多样化视觉图像,通过Gemini 2.5生成文本描述并利用Nano Banana合成多视角图像。其创新性在于通过数据规模扩展、推理感知的QA架构和视觉上下文多样性,确保模型建立可靠的参数化记忆,为隐私保护中的机器遗忘研究提供严谨评估框架。
ReMem is a multimodal memory benchmark dataset jointly developed by National Central University and KT Corporation, designed to address the failure of Large Vision-Language Models (LVLMs) during the basic memory phase in forgetting learning tasks. This dataset includes 100 fictional identities with comprehensive attributes such as name, occupation, medical records, etc. Each identity is associated with 100 sets of question-answer (QA) pairs (with a 7:3 ratio of single-hop to multi-hop questions) and 100 diverse visual images. Text descriptions are generated via Gemini 2.5, and multi-view images are synthesized using Nano Banana. Its core innovation lies in ensuring that models can establish reliable parametric memories through data scale expansion, reasoning-aware QA architecture and diverse visual contexts, providing a rigorous evaluation framework for machine forgetting research in privacy protection.
提供机构:
中央大学·人工智能系; 中央大学·高级影像科学、多媒体与电影研究生院; KT公司
创建时间:
2026-05-05
原始信息汇总
数据集概述:ReMem (Reliable Multi-hop and Multi-image Memorization Benchmark)
ReMem 是一个专为大型视觉语言模型设计的可靠多跳、多图像记忆基准数据集,旨在诊断模型在隐私遗忘任务中的基础学习失败问题,确保后续遗忘评估的可靠性。
核心特性
- 发布机构:Accepted to Findings of ACL 2026(论文 arXiv:2605.03759)
- 任务领域:视觉语言模型的记忆与遗忘评估
- 数据规模:总大小约 9.5 GB,包含 4,120 个样本
- 设计理念:通过原则性数据缩放、推理感知的问答对和多样化的视觉上下文,确保模型扎实的基础学习
数据集结构
数据集包含 7 个划分,分别用于评估基础记忆阶段和遗忘阶段:
| 划分名称 | 样本数 | 描述 |
|---|---|---|
| finetune | 2,000 | 基础记忆全集,用于学习目标身份信息 |
| forget1 | 100 | 遗忘目标子集(占训练集的 5%) |
| forget2 | 200 | 遗忘目标子集(占训练集的 10%) |
| forget3 | 300 | 遗忘目标子集(占训练集的 15%) |
| forget4 | 400 | 遗忘目标子集(占训练集的 20%) |
| retain | 560 | 保留集,用于评估非目标信息的效用保持 |
| test | 560 | 测试集,用于评估遗忘鲁棒性(持出集) |
数据字段说明
每个样本包含以下字段:
| 字段名 | 类型 | 说明 |
|---|---|---|
image |
image | 个人身份图片(PIL.Image) |
question |
string | 关于敏感信息的推理感知 VQA 问题 |
answer |
string | 包含标准答案的个人信息 |
keywords |
string | 用于精确匹配评估的关键实体或值 |
question_type |
string | 推理深度(如 1-hop) |
qa_category |
string | 信息类别(如 personal_information) |
attribute |
string | 特定个人身份信息类型(如 email, date_of_birth) |
cloze_prompt |
string | 用于测量内部概率/暴露度的提示 |
image_path |
string | 原始图片文件路径 |
使用示例
通过 Hugging Face Datasets 库快速加载: python from datasets import load_dataset
加载基础记忆集
ds_full = load_dataset("herbwood27/Remem", split="finetune")
加载特定遗忘子集
ds_forget = load_dataset("herbwood27/Remem", split="forget1")
引用信息
该论文已被 ACL 2026 Findings 收录,引用格式: bibtex @article{kwon2026before, title={Before Forgetting, Learn to Remember: Revisiting Foundational Learning Failures in LVLM Unlearning Benchmarks}, author={JuneHyoung Kwon and MiHyeon Kim and Eunju Lee and JungMin Yun and Byeonggeuk Lim and YoungBin Kim}, journal={arXiv preprint arXiv:2605.03759}, year={2026} }
搜集汇总
数据集介绍

构建方式
在大型视觉语言模型面临隐私泄露风险的背景下,ReMem数据集应运而生,旨在为机器遗忘评估建立可靠基准。构建时,首先利用大语言模型为每位虚构身份生成包含姓名、职业等属性的详细文本档案,并配套生成100个问答对,其中单跳与多跳问题的比例设置为70:30。随后,通过多视角合成技术,以锚定图像为基础并随机化视觉属性,为每个身份生成100张视觉布局多样的图像,再经ArcFace余弦相似度筛选及人工审核以保障质量。最终将包含20个虚构身份、总计2560个样本的完整数据集划分为保留集与遗忘集,并设计了与训练数据视觉和文本模板均不同的独立测试集。
特点
ReMem数据集的核心特点在于其系统性地解决了现有基准中存在的第一阶段学习失败问题。通过大幅提升每个身份的数据规模,从其他基准的1至20个问答对扩展至100个,并策略性地混合单跳与多跳问题,克服了未充分记忆与多跳诅咒。多视角合成技术赋予了数据集视觉多样性,确保了模型能学习到身份概念的抽象表征而非对单一图像的过拟合。此外,该数据集引入了全新的Exposure指标,通过分析模型内部概率分布中目标答案的排名来量化信息擦除的深度,实现了对遗忘效果更精细的评估。
使用方法
ReMem数据集采用标准的两阶段评估流程。在第一阶段,使用完整训练集对基础模型(如LLaVA-1.5)进行微调,以确保模型充分记忆所有虚构身份信息,并通过ROUGE、Exact Match及内部状态分析验证记忆效果。第二阶段,应用目标遗忘算法对指定遗忘集进行处理,随后在遗忘集、保留子集以及包含未见视觉模板和问题模板的分布外测试集上全面评估模型性能。评估指标涵盖反映模型效用的ROUGE与保留精确匹配,以及衡量遗忘质量的GPT评分、遗忘精确匹配、测试精确匹配和新型Exposure指标,从而全面刻画模型在保留与遗忘之间的权衡。
背景与挑战
背景概述
随着大规模视觉-语言模型(LVLMs)在广泛应用中展现出卓越能力,其无意中记忆和复现训练数据中敏感个人信息所带来的隐私风险日益凸显。为应对“被遗忘权”等隐私法规,机器遗忘(Machine Unlearning)作为替代昂贵模型重训的有效方案应运而生。然而,现有遗忘基准(如FIUBench、MLLMU-Bench)虽采用虚构身份进行评估,却忽视了一个关键的第一阶段失败:模型在初始微调阶段未能有效记忆目标信息,使得后续的遗忘评估从根本上不可靠。为诊断此问题,韩国中央大学人工智能系及KT公司的研究团队(JuneHyoung Kwon等)于2025年提出了ReMem(Reliable Multi-hop and Multi-image Memorization Benchmark),旨在通过结构化设计奠定可靠的遗忘评估基础。该基准通过精细的数据缩放、推理感知的问答对构建以及多样化视觉上下文,确保模型实现稳健的基础学习,为LVLM遗忘研究提供了严谨的评估框架。
当前挑战
ReMem数据集面临的挑战分为两个层面。在领域问题层面,核心挑战在于解决现有遗忘基准中普遍存在的“第一阶段失败”——模型未能从初始阶段有效记忆核心个人身份信息(PII),导致后续遗忘评估的前提失效。具体表现为:模型在单跳和多跳推理任务中均难以实现充分的记忆编码,缺乏内部知识回路支持真正的记忆存储,使得“遗忘”的衡量无从谈起。在构建过程层面,挑战包括:1)克服“多跳诅咒”——模型在缺乏简单推理步骤支撑时难以掌握复杂组合推理,需设计合理的单跳与多跳问答比例(最终确定为70:30)以实现有效记忆;2)解决数据规模不足导致的欠记忆问题,通过为每个身份提供100张图像和100个问答对的大规模数据扩展确保学习充分性;3)生成多样化的视觉布局(如姿态、服装、背景变化)以防止模型过拟合于单一视觉线索,并构建与训练数据分布不同的测试集以评估泛化能力。
常用场景
经典使用场景
在大规模视觉-语言模型(LVLM)的隐私保护研究中,ReMem被设计为一种可靠的记忆与遗忘基准测试,其最经典的使用场景在于评估模型在初始学习阶段对虚构身份信息的记忆能力,并为后续的机器遗忘算法提供有效的验证平台。通过引入多跳推理问题与多视角视觉样本,ReMem能够诊断模型在记忆敏感个人信息时常见的“欠记忆”与“多跳诅咒”现象,确保遗忘评估建立在稳固的初始学习基础之上,从而填补了现有基准在基础学习验证方面的空白。
实际应用
在实际应用中,ReMem可直接服务于需要符合“被遗忘权”法规的AI系统部署场景,例如社交平台、医疗影像分析及人脸识别服务中的隐私保护模块。通过系统地模拟虚构身份的个人信息记忆与遗忘流程,该数据集帮助开发者验证其模型是否能够在保留通用能力的同时,精准擦除特定用户的敏感数据。这种评估框架不仅降低了真实隐私数据泄露的风险,还为企业在合规性审计中提供量化的遗忘效果证据,从而支撑更安全、可信的AI产品落地。
衍生相关工作
ReMem的提出催生了多项后续研究工作,包括基于因果追踪分析模型内部记忆回路的方法改进,以及针对不同遗忘比例的动态权衡分析。受ReMem中暴露度量和多跳推理设计的启发,研究者进一步探索了利用模型内部信念分布进行遗忘检测的技术,并提出了一系列面向复杂多实体场景的遗忘评估扩展方案。此外,ReMem中数据规模与问答组合的缩放规律分析,也推动了关于模型记忆容量与遗忘效率之间最优平衡关系的系统性研究,为LVLM领域的隐私保护方法论提供了坚实的实证基础。
以上内容由遇见数据集搜集并总结生成



