DUSK

Hugging Face2025-04-28 更新2025-04-29 收录

下载链接：

https://huggingface.co/datasets/AI-ISL/DUSK

下载链接

链接失效反馈

官方服务：

资源简介：

DUSK是一个针对多源设置中的机器遗忘进行评估的基准数据集，专注于选择性遗忘和知识保留。它包含多个评估数据集，用于测试机器在遗忘特定数据源的同时保留其他数据源的能力。

创建时间：

2025-04-26

原始信息汇总

DUSK数据集概述

基本信息

数据集名称: DUSK (Do Not Unlearn Shared Knowledge)
语言: 英文 (en)
许可证: MIT
数据规模: 1K<n<10K
注释类型: 机器生成
数据来源: 原始数据
标签:
- unlearning
- question-answering
- selective-unlearning

数据集结构

配置名称	描述	数据文件
`eval_general_qa`	通用问答评估集	eval_general_qa.jsonl
`eval_specific_forget_qa`	针对需遗忘数据的问答集	eval_specific_forget_qa.jsonl
`eval_specific_retain_qa`	针对需保留数据的问答集	eval_specific_retain_qa.jsonl
`eval_icl`	上下文学习示例	eval_icl.jsonl
`eval_icl_mcqa`	上下文学习多选示例	eval_icl_mcqa.jsonl
`eval_verbatim`	逐字文档（提示+真实答案）	eval_verbatim.json
`eval_holdout`	用于鲁棒性评估的保留文档	eval_holdout.txt
`raw`	原始数据

forget_chronological.parquet
retain_feature_story.parquet
retain_interview.parquet
retain_inverted_pyramid.parquet
retain_listicle.parquet
full.parquet

主要特点

专注于选择性遗忘和知识保留。
评估多源遗忘场景下的模型表现。

使用方式

可通过HuggingFace datasets库加载数据集： python from datasets import load_dataset dataset = load_dataset("AI-ISL/DUSK") print(dataset)

许可证

数据集采用MIT License发布。

引用

即将发布！

搜集汇总

数据集介绍

构建方式

DUSK数据集采用多源数据构建策略，专注于机器遗忘研究领域。其原始数据通过结构化分割为遗忘集与保留集，并采用机器自动标注技术生成问答对。数据集包含8种不同评估配置，涵盖通用问答、特定遗忘/保留问答、上下文学习等多种任务类型，原始数据以parquet格式存储，评估数据则采用jsonl和txt等轻量级格式组织。

特点

该数据集的核心价值在于其多源选择性遗忘评估框架，能够精确衡量模型在遗忘特定数据源时的性能变化。通过设计遗忘集与保留集的对照评估模块，支持知识保留完整性的量化分析。独特的上下文学习评估配置和多项选择题型，为模型在复杂场景下的鲁棒性测试提供了多维度的评估基准。

使用方法

研究人员可通过HuggingFace数据集库直接加载DUSK，调用load_dataset('AI-ISL/DUSK')即可访问全部配置。不同评估模块需指定对应config_name参数，如eval_general_qa用于通用能力测试，eval_specific_forget_qa则专注遗忘效果验证。原始数据分片可通过raw配置访问，支持对数据源的细粒度分析。

背景与挑战

背景概述

DUSK数据集是专为评估多源环境下的机器遗忘（machine unlearning）而设计的基准数据集，其核心研究问题聚焦于如何在特定数据源被遗忘的同时，有效保留其他数据源的知识。该数据集由AI-ISL团队创建，旨在解决当前机器学习模型在选择性遗忘和知识保留方面的挑战。DUSK的构建基于多源数据，涵盖了多种评估场景，包括通用问答、特定遗忘问答、特定保留问答等，为研究者在机器遗忘领域提供了全面的评估工具。该数据集的推出填补了多源环境下机器遗忘研究的空白，对推动相关领域的发展具有重要意义。

当前挑战

DUSK数据集面临的挑战主要体现在两个方面：首先，机器遗忘领域本身的研究尚处于初级阶段，如何在多源环境下精确控制遗忘过程并保留关键知识是一个复杂的问题，需要解决模型在遗忘过程中的性能下降和知识混淆问题。其次，在数据集构建过程中，如何平衡遗忘数据与保留数据的比例，确保评估的公平性和全面性，也是一个重要挑战。此外，数据集的多样性和复杂性要求评估方法具备高度的适应性和鲁棒性，这对研究者的算法设计提出了更高的要求。

常用场景

经典使用场景

在机器遗忘研究领域，DUSK数据集被广泛用于评估多源环境下的选择性遗忘能力。该数据集通过构建需要遗忘的特定数据源和需要保留的其他数据源，为研究者提供了一个标准化的测试平台。其经典使用场景包括评估模型在遗忘特定知识的同时，能否有效保留共享知识的能力，这对于验证机器遗忘算法的鲁棒性至关重要。

衍生相关工作

围绕DUSK数据集，研究者们已经开展了一系列经典工作。其中包括基于该数据集开发的新型遗忘算法评估框架，以及针对多源遗忘场景的改进模型。这些工作不仅验证了DUSK作为基准数据集的有效性，还进一步拓展了机器遗忘在复杂场景下的应用边界，为该领域的持续发展奠定了坚实基础。

数据集最近研究