OpenUnlearning

Name: OpenUnlearning
Creator: 麻省大学阿默斯特分校, 卡内基梅隆大学, DatologyAI
Published: 2025-06-15 04:16:37
License: 暂无描述

arXiv2025-06-15 更新2025-06-19 收录

下载链接：

https://github.com/locuslab/open-unlearning

下载链接

链接失效反馈

官方服务：

资源简介：

OpenUnlearning是一个标准化的、可扩展的框架，专为评估大型语言模型（LLM）的遗忘方法和指标而设计。它整合了9种遗忘算法和16种不同的评估方法，涵盖了3个领先的基准（TOFU、MUSE和WMDP），并允许分析450多个公开发布的检查点中的遗忘行为。OpenUnlearning旨在解决当前遗忘方法和评估指标碎片化的问题，促进研究社区的统一和加速研究进展。

OpenUnlearning is a standardized, scalable framework specifically designed for evaluating forgetting methods and metrics for Large Language Models (LLMs). It integrates 9 forgetting algorithms and 16 distinct evaluation methods, covers three leading benchmarks (TOFU, MUSE, and WMDP), and enables analysis of forgetting behaviors across over 450 publicly released checkpoints. OpenUnlearning aims to address the current fragmentation of forgetting methods and evaluation metrics, and foster unification within the research community while accelerating research progress.

提供机构：

麻省大学阿默斯特分校, 卡内基梅隆大学, DatologyAI

创建时间：

2025-06-15

原始信息汇总

OpenUnlearning 数据集概述

数据集基本信息

名称: OpenUnlearning
类型: 大语言模型遗忘评估框架
许可证: MIT
维护者: Vineeth Dorna, Anmol Mekala
发布日期: 2025年

核心功能

统一框架: 整合了TOFU、MUSE和WMDP三大遗忘评估基准
扩展性: 支持快速添加新基准、遗忘方法、数据集和评估指标

主要组件

基准测试

TOFU (Task of Fictitious Unlearning)
MUSE (Machine Unlearning Six-Way Evaluation)
WMDP (Weapons of Mass Destruction Proliferation)

遗忘方法

GradAscent, GradDiff, NPO, SimNPO, DPO
RMU, UNDIAL, AltPO

评估指标

逐字概率/ROUGE
知识QA-ROUGE
模型效用
遗忘质量
6种成员推理攻击(MIA)
提取强度(ES)
精确记忆(EM)

数据集

MUSE-News (BBC)
MUSE-Books (哈利波特)
TOFU (多种分割)
WMDP-Bio
WMDP-Cyber

模型架构

LLaMA系列 (3.2/3.1/2)
Phi系列 (3.5/1.5)
Gemma
Zephyr

更新记录

2025-05-12: 新增WMDP基准测试
2025-04-06: 新增6种MIA评估指标
2025-03-27: 改进文档和排行榜功能
2025-03-09: 新增RMU遗忘方法

快速开始

bash conda create -n unlearning python=3.11 conda activate unlearning pip install .[lm_eval] python setup_data.py --eval

引用格式

bibtex @misc{openunlearning2025, title={{OpenUnlearning}: A Unified Framework for LLM Unlearning Benchmarks}, author={Dorna, Vineeth and Mekala, Anmol and Zhao, Wenlong and McCallum, Andrew and Kolter, J Zico and Maini, Pratyush}, year={2025}, howpublished={url{https://github.com/locuslab/open-unlearning}}

搜集汇总

数据集介绍

构建方式

OpenUnlearning数据集通过整合三大主流基准测试（TOFU、MUSE和WMDP）构建而成，采用模块化设计实现方法、评估指标与干预措施的标准化集成。研究团队系统化采集了450多个模型检查点，涵盖9种反学习算法和16种评估指标，并通过Hydra配置管理系统实现实验参数的可复现性。数据生成过程采用GPT-4和Gemini等大模型进行问答对改写及传记合成，确保测试数据的多样性和挑战性。

使用方法

使用者可通过标准化管道加载Llama-3等6种架构模型，配置YAML文件快速切换反学习算法（如SimNPO或RMU）。评估阶段集成三类指标：记忆类（ES/EM）、隐私类（MIA攻击）和效用类（LM Eval Harness），支持批量推理和动态填充优化。针对8GB显存设备提供量化模型加载功能，并通过DeepSpeed ZeRO-3实现8B参数模型的分布式训练。社区可遵循模块注册规范贡献新算法，利用450+检查点进行基准测试与方法改进。

背景与挑战

背景概述

OpenUnlearning是由马萨诸塞大学阿默斯特分校、卡内基梅隆大学及DatologyAI的研究团队于2025年提出的标准化评估框架，旨在解决大语言模型（LLMs）中数据隐私、安全合规等场景下的模型遗忘问题。该数据集整合了TOFU、MUSE和WMDP三大基准测试，涵盖9种遗忘算法和16种评估指标，并通过450+公开模型检查点推动可复现研究。其核心创新在于首次建立了遗忘效果元评估体系，通过量化指标的忠实性（Faithfulness）与鲁棒性（Robustness），为LLM遗忘技术的标准化发展提供了关键基础设施。

当前挑战

领域挑战方面，现有评估存在碎片化问题：不同基准测试采用异构指标（如TOFU依赖概率判断，MUSE使用MIA攻击指标），导致方法间可比性差；且现有指标对知识残留的检测可靠性不足，如简单改写即可使遗忘模型分数波动10倍。构建挑战体现在：1）需设计跨基准的统一评估管道以支持9种算法横向对比；2）需创建包含正负样本的模型池（P/N）来验证指标忠实性；3）应对量化、再学习等压力测试时，需确保评估结果不受模型参数扰动影响。

常用场景

经典使用场景

OpenUnlearning数据集在大型语言模型（LLM）的机器遗忘研究中扮演了关键角色。该数据集通过整合多种遗忘算法、评估指标和基准测试，为研究人员提供了一个标准化的框架，用于比较不同遗忘方法的有效性。特别是在隐私保护、模型安全和法规遵从性要求严格的环境中，OpenUnlearning帮助验证模型是否真正‘遗忘’了指定的训练数据。

解决学术问题

OpenUnlearning解决了LLM遗忘研究中的碎片化和评估不一致问题。通过统一的框架，它使得不同遗忘方法和评估指标能够在相同条件下进行比较，从而提高了研究的可重复性和可靠性。此外，该数据集还引入了一种新颖的元评估基准，专门用于评估评估指标本身的忠实性和鲁棒性，填补了现有研究的空白。

实际应用

在实际应用中，OpenUnlearning被广泛用于确保LLM在部署后能够有效遗忘敏感或有害信息。例如，在医疗、金融和法律领域，模型需要快速响应数据删除请求以符合隐私法规。OpenUnlearning提供的标准化工具和评估流程，使得模型开发者能够高效验证遗忘效果，确保模型在删除特定数据后仍能保持其整体性能和安全性。

数据集最近研究