five

EasyDUB-dataset

收藏
Hugging Face2026-02-27 更新2026-02-28 收录
下载链接:
https://huggingface.co/datasets/easydub/EasyDUB-dataset
下载链接
链接失效反馈
官方服务:
资源简介:
EasyDUB 数据集是一个用于评估数据遗忘方法的预计算 CIFAR-10 数据集。该数据集包含 200 个预训练模型(在完整的 CIFAR-10 训练集上训练的 ResNet9 模型)和每个遗忘集的 200 个 oracle 模型(在保留集上重新训练的 ResNet9 模型)。此外,数据集还提供了所有模型在训练/验证/遗忘/保留分割上的预计算 logits 和 margins。所有模型均在训练的第 23 个 epoch(共 24 个 epoch)进行 checkpoint。数据集目录结构清晰,包含 models、logits、margins 和 forget_sets 子目录。logits 和 margins 的数据形状和类型明确,logits 为 (n_samples, 10) 的 float32 数组,margins 为 (n_samples,) 的 float32 数组。数据集包含 10 个不同的 CIFAR-10 遗忘集,每个遗忘集的大小和选择方式各异。EasyDUB 数据集适用于机器遗忘、计算机视觉和鲁棒性基准测试等任务。
创建时间:
2026-02-18
原始信息汇总

EasyDUB 数据集概述

数据集基本信息

  • 数据集名称: EasyDUB Dataset
  • 主要用途: 用于数据遗忘(data-unlearning)方法的KLOM(KL-divergence of Margins)评估。
  • 基础数据: 基于CIFAR-10数据集。
  • 许可证: MIT License
  • 相关标签: machine-unlearning, cifar10, computer-vision, robustness, benchmarks

数据集内容

预训练模型

  • 数量: 200个
  • 模型架构: ResNet9
  • 训练数据: 完整的CIFAR-10训练集(50,000个样本)
  • 检查点: 所有模型均保存于第23个训练周期(共24个周期)

参考模型(Oracle Models)

  • 数量: 每个遗忘集对应200个模型
  • 模型架构: ResNet9
  • 训练数据: 保留集(训练集减去遗忘集),针对10个不同的遗忘集分别训练
  • 检查点: 所有模型均保存于第23个训练周期

预计算数据

  • Logits(原始输出): 为所有模型在训练/验证/遗忘/保留集划分上预计算的logits。
  • Margins(边界值): 为所有模型在训练/验证/遗忘/保留集划分上预计算的margins。
  • 数据格式: NumPy数组(.npy文件)

遗忘集

  • 数量: 10个
  • 构成:
    1. 遗忘集1: 10个随机样本
    2. 遗忘集2: 100个随机样本
    3. 遗忘集3: 1,000个随机样本
    4. 遗忘集4: 在第一个主成分上投影最高的10个样本
    5. 遗忘集5: 在第一个主成分上投影最高的100个样本
    6. 遗忘集6: 在第一个主成分上投影最高的250个样本 + 投影最低的250个样本
    7. 遗忘集7: 在第二个主成分上投影最高的10个样本
    8. 遗忘集8: 在第二个主成分上投影最高的100个样本
    9. 遗忘集9: 在第二个主成分上投影最高的250个样本 + 投影最低的250个样本
    10. 遗忘集10: 在CLIP图像空间中与一个参考食火鸡图像最接近的100个样本
  • 文件: 每个遗忘集对应一个forget_set_Z.npy文件,其中包含指向CIFAR-10训练集的整数索引。

数据集结构

EasyDUB-dataset/ ├── models/ │ └── cifar10/ │ ├── pretrain/ │ │ └── resnet9/ │ │ └── id_X_epoch_23.pt │ └── oracle/ │ └── forget_Z/ │ └── resnet9/ │ └── id_X_epoch_23.pt ├── logits/ │ └── cifar10/ │ ├── pretrain/ │ │ ├── retain/ │ │ │ └── resnet9/ │ │ │ └── id_X_epoch_23.npy │ │ ├── val/ │ │ │ └── resnet9/ │ │ │ └── id_X_epoch_23.npy │ │ └── forget_Z/ │ │ └── resnet9/ │ │ └── id_X_epoch_23.npy │ └── oracle/ │ └── forget_Z/ │ ├── retain/ │ │ └── resnet9/ │ │ └── id_X_epoch_23.npy │ ├── forget/ │ │ └── resnet9/ │ │ └── id_X_epoch_23.npy │ └── val/ │ └── resnet9/ │ └── id_X_epoch_23.npy ├── margins/ │ └── cifar10/ │ └── [same structure as logits/] └── forget_sets/ └── cifar10/ └── forget_set_Z.npy

技术规格

文件命名

  • 模型文件: id_{MODEL_ID}_epoch_{EPOCH}.pt (例如 id_42_epoch_23.pt)
  • Logits/Margins文件: id_{MODEL_ID}_epoch_{EPOCH}.npy
  • 遗忘集文件: forget_set_{SET_ID}.npy (例如 forget_set_1.npy)

数据形状与类型

  • Logits: 形状为(n_samples, 10)float32 NumPy数组,代表10个CIFAR-10类别的原始模型输出。
  • Margins: 形状为(n_samples,)float32 NumPy数组,代表标量边界值。
  • 遗忘集: 形状为(n_forget_samples,)的整数索引数组,索引范围在[0, 49_999]内,指向CIFAR-10训练集。

典型数据规模

  • 训练集: 50,000个样本
  • 验证集: 10,000个样本
  • 遗忘集: 10至1,000个样本(因集而异)

Margin定义

对于每个具有logits logits和真实标签true_label的样本,其margin计算方式如下: python import torch def compute_margin(logits: torch.Tensor, true_label: int) -> torch.Tensor: logit_other = logits.clone() logit_other[true_label] = -torch.inf return logits[true_label] - logit_other.logsumexp(dim=-1)

更高的margin值表示模型对正确类别的置信度相对于所有其他类别更高(通过log-sum-exp计算)。

训练过程摘要

所有预训练模型和参考模型共享相同的训练设置:

  • 优化器: 带动量的SGD
  • 学习率: 0.4(三角调度,在第5个周期达到峰值)
  • 动量: 0.9
  • 权重衰减: 5e-4
  • 训练周期: 共24个,本数据集使用第23个周期的检查点
  • 混合精度: 启用(FP16)
  • 标签平滑: 0.0

相关资源

  • 代码仓库: https://github.com/easydub/EasyDUB-code
  • 论文: https://arxiv.org/abs/2602.16400

引用

如果使用EasyDUB,请引用: bibtex @misc{rinberg2026easydataunlearningbench, title={Easy Data Unlearning Bench}, author={Roy Rinberg and Pol Puigdemont and Martin Pawelczyk and Volkan Cevher}, year={2026}, eprint={2602.16400}, archivePrefix={arXiv}, primaryClass={cs.LG}, url={https://arxiv.org/abs/2602.16400}, }

搜集汇总
数据集介绍
构建方式
在机器遗忘研究领域,数据集的构建需兼顾严谨性与可复现性。EasyDUB数据集以CIFAR-10为基础,通过系统化的模型训练与数据划分流程构建而成。具体而言,研究者首先在完整的CIFAR-10训练集上训练了200个ResNet9模型作为预训练模型;随后,针对10个精心设计的遗忘集合,分别为每个集合重新训练了200个仅在保留集上训练的Oracle模型。所有模型均在训练至第23个周期时保存检查点,并同步计算了模型在训练、验证、遗忘及保留分割上的对数几率与边界值,最终形成结构化的模型参数与评估指标存储体系。
特点
该数据集的核心特征在于其预先计算的多维度评估数据与结构化设计。数据集不仅包含了大量预训练与Oracle模型参数,还提供了模型在各类数据分割上的对数几率与边界值,这些指标为量化遗忘效果提供了直接依据。遗忘集合的设计颇具匠心,涵盖了从随机采样到基于主成分分析与CLIP图像空间相似性的多种策略,规模从10至1000个样本不等,能够全面评估不同遗忘场景下方法的鲁棒性。这种多层次、多角度的数据组织方式,为机器遗忘算法的公平比较与深入分析奠定了坚实基础。
使用方法
使用该数据集时,研究者可通过配套的代码库快速进行评估实验。数据集采用清晰的目录结构组织,用户可直接加载特定模型在指定数据分割上的边界值或对数几率文件进行离线分析。例如,通过加载预训练模型与对应Oracle模型在验证集上的边界值,即可计算KLOM指标以评估遗忘算法的性能。数据集支持与PyTorch及NumPy等主流工具无缝集成,其提供的遗忘集合索引文件便于用户精确复现数据划分。对于更复杂的实验,可参考官方代码库中集成的遗忘方法实现与端到端评估流程。
背景与挑战
背景概述
在机器学习领域,模型遗忘技术旨在从已训练模型中移除特定数据的影响,以应对隐私保护、法规遵从及模型更新等需求。EasyDUB数据集由Roy Rinberg、Pol Puigdemont、Martin Pawelczyk与Volkan Cevher等研究人员于2026年构建,其核心研究问题聚焦于评估数据遗忘方法的性能,特别是通过KLOM(边际KL散度)指标来衡量遗忘效果。该数据集基于CIFAR-10图像分类任务,提供了大量预训练模型与遗忘集对应的Oracle模型,为机器遗忘研究提供了标准化基准,显著推动了计算机视觉中模型鲁棒性与可解释性的前沿探索。
当前挑战
EasyDUB数据集致力于解决机器遗忘领域中的评估挑战,即如何量化模型在遗忘特定数据后的性能变化与隐私泄露风险。构建过程中的主要挑战包括:设计多样化的遗忘集以覆盖不同遗忘场景,如随机采样、主成分分析选取及CLIP空间邻近性筛选;确保预训练与Oracle模型在相同训练配置下生成,以消除实验偏差;以及高效存储与组织大规模模型参数、对数几率与边际数据,以支持可复现的基准测试。
常用场景
经典使用场景
在机器遗忘研究领域,EasyDUB数据集为评估数据遗忘方法的性能提供了标准化基准。该数据集基于CIFAR-10构建,包含了预训练的ResNet9模型、针对不同遗忘集重新训练的Oracle模型,以及预计算的对数概率和边界值。研究者通常利用这些资源,通过计算KLOM指标来量化遗忘算法在移除特定数据子集后,模型输出分布与理想Oracle模型之间的差异。这种评估方式能够系统性地比较不同遗忘策略在多种遗忘场景下的有效性,从而推动机器遗忘技术的发展。
实际应用
在实际应用中,EasyDUB数据集支持开发符合数据隐私法规的机器学习系统。例如,当用户行使被遗忘权要求删除其个人数据时,系统无需耗费巨大资源重新训练模型,而是可以采用高效的遗忘算法。利用该数据集的基准评估,工程师能够选择并部署可靠的遗忘方法,确保模型在移除敏感信息后仍保持高性能与鲁棒性。这为金融、医疗、社交媒体等涉及敏感数据的行业提供了技术保障,助力企业在合规前提下持续利用机器学习能力。
衍生相关工作
围绕EasyDUB数据集,已衍生出多项重要的研究工作。其核心评估指标KLOM源自《Attribute-to-Delete: Machine Unlearning via Datamodel Matching》一文,该工作提出了通过数据模型匹配进行机器遗忘的框架。EasyDUB本身作为基准平台,启发了后续对遗忘算法鲁棒性、效率及理论保证的深入探索。配套代码库中实现的噪声SGD遗忘实验等,为比较梯度扰动、参数修剪等不同遗忘范式提供了范例。这些工作共同构成了机器遗忘领域从方法论到评估体系的完整研究脉络。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作