muse-bench/MUSE-Books

Name: muse-bench/MUSE-Books
Creator: muse-bench
Published: 2024-07-10 02:02:44
License: 暂无描述

Hugging Face2024-07-10 更新2024-06-29 收录

下载链接：

https://hf-mirror.com/datasets/muse-bench/MUSE-Books

下载链接

链接失效反馈

官方服务：

资源简介：

MUSE-Books是一个全面的机器遗忘评估基准，旨在评估遗忘模型的六个关键属性：无逐字记忆、无知识记忆、无隐私泄露、对非移除数据的效用保持、移除请求大小的可扩展性以及顺序遗忘请求的可持续性。该数据集包含J.K.罗琳所写的《哈利·波特》系列书籍，分为五个子集：`raw`、`verbmem`、`knowmem`、`privleak`和`train`。每个子集都有特定的用途和分割，如`verbmem`用于评估逐字记忆，`knowmem`用于评估知识记忆和效用保持。

MUSE-Books is a comprehensive machine unlearning evaluation benchmark that assesses six key properties for unlearned models: no verbatim memorization, no knowledge memorization, no privacy leakage, utility preservation on data not intended for removal, scalability with respect to the size of removal requests, and sustainability over sequential unlearning requests. The dataset comprises the Harry Potter book series written by J. K. Rowling and is divided into five subsets: `raw`, `verbmem`, `knowmem`, `privleak`, and `train`. Each subset serves specific purposes and is partitioned accordingly, such as `verbmem` for evaluating verbatim memorization and `knowmem` for assessing knowledge memorization and utility preservation.

提供机构：

muse-bench

原始信息汇总

数据集概述

数据集名称

MUSE-Books

数据集描述

MUSE-Books 是一个综合的机器遗忘评估基准，包含五个子集：raw、verbmem、knowmem、privleak 和 train。每个子集包含不同的数据文件和特征，用于评估机器遗忘模型的不同属性。

子集详情

子集：raw

特征：
- text: string
分割：
- retain2: 1969626 bytes, 13 examples
- forget: 4096855 bytes, 4 examples
- retain1: 836924 bytes, 12 examples
- holdout: 2328993 bytes, 3 examples
下载大小：5386338 bytes
数据集大小：9232398 bytes

子集：verbmem

特征：
- prompt: string
- gt: string
分割：
- forget: 417969 bytes, 100 examples
下载大小：283251 bytes
数据集大小：417969 bytes

子集：knowmem

特征：
- answer: string
- question: string
分割：
- retain_qa_icl: 1143 bytes, 10 examples
- retain_qa: 9398 bytes, 100 examples
- forget_qa: 9896 bytes, 100 examples
- forget_qa_icl: 1033 bytes, 10 examples
下载大小：21229 bytes
数据集大小：21470 bytes

子集：privleak

特征：
- text: string
分割：
- retain: 780073 bytes, 100 examples
- forget: 744007 bytes, 100 examples
- holdout: 706326 bytes, 100 examples
下载大小：1329454 bytes
数据集大小：2230406 bytes

子集：train

特征：
- text: string
分割：
- retain2: 1969626 bytes, 13 examples
- forget: 4096855 bytes, 4 examples
- retain1: 836924 bytes, 12 examples
下载大小：3997041 bytes
数据集大小：6903405 bytes

数据文件路径

knowmem：
- retain_qa_icl: knowmem/retain_qa_icl-*
- retain_qa: knowmem/retain_qa-*
- forget_qa: knowmem/forget_qa-*
- forget_qa_icl: knowmem/forget_qa_icl-*
privleak：
- retain: privleak/retain-*
- forget: privleak/forget-*
- holdout: privleak/holdout-*
raw：
- retain2: raw/retain2-*
- forget: raw/forget-*
- retain1: raw/retain1-*
- holdout: raw/holdout-*
train：
- retain2: train/retain2-*
- forget: train/forget-*
- retain1: train/retain1-*
verbmem：
- forget: verbmem/forget-*

搜集汇总

数据集介绍

构建方式

在机器遗忘研究领域，构建高质量的评估基准至关重要。MUSE-Books数据集以J.K.罗琳的《哈利·波特》系列小说为原始语料，通过系统化的工程流程构建而成。其核心从`raw`原始语料子集出发，依据不同的评估目标，衍生出多个功能性子集。具体而言，`verbmem`子集通过从待遗忘文本中精确截取固定长度的片段，用以评估逐字记忆的消除效果；`knowmem`子集则通过人工或自动化方式生成与特定文本片段紧密关联的问答对，以检验知识层面的遗忘与保留；`privleak`等子集则遵循类似的划分逻辑，确保每个子集与拆分都能精准服务于遗忘模型在特定维度上的性能度量。

特点

该数据集的设计体现了机器遗忘评估的系统性与多维性。其最显著的特点在于提供了结构化的多维度评估框架，通过`verbmem`、`knowmem`、`privleak`等独立子集，分别针对逐字记忆、知识记忆、隐私泄露等六个关键属性进行量化测评。每个子集内部进一步细分为`forget`、`retain`、`holdout`等拆分，清晰界定了待遗忘数据、需保留数据以及模型从未见过的保留数据，为评估提供了纯净且可控的实验环境。这种模块化设计使得研究者能够孤立地分析遗忘算法在不同层面的影响，从而获得深刻而全面的性能洞察。

使用方法

为有效利用该数据集进行机器遗忘研究，研究者需遵循其预设的加载与评估流程。首先，通过Hugging Face `datasets`库，指定目标子集（如`verbmem`）与拆分（如`forget`）即可加载相应数据。在具体评估时，应基于数据集提供的目标模型，将待测试的遗忘方法应用于`raw`子集中定义的遗忘集。随后，利用`verbmem`等评估子集对处理后的模型进行测试，量化其在对应属性上的表现。官方提供的配套代码库包含了标准化的评估脚本，建议研究者参照使用，以确保评估结果的可比性与复现性，从而推动机器遗忘技术的可靠发展。

背景与挑战

背景概述

在人工智能安全与伦理研究日益受到重视的背景下，机器遗忘技术作为缓解大型语言模型隐私泄露与版权风险的关键途径，其系统化评估框架的构建显得尤为迫切。MUSE-Books数据集由研究团队于2024年发布，旨在为机器遗忘方法提供一个严谨的基准测试平台。该数据集以J.K.罗琳创作的《哈利·波特》系列小说为文本基础，通过结构化设计，聚焦于评估遗忘模型在文本记忆消除、知识保留与隐私保护等多维属性上的效能，为推进可解释、可信赖的机器学习系统发展提供了重要的数据支撑。

当前挑战

MUSE-Books数据集致力于应对机器遗忘领域中的核心挑战：如何精准量化模型对特定文本的逐字记忆、深层知识关联以及隐私信息的遗忘程度，同时确保模型在未指定遗忘数据上的性能得以保持。在构建过程中，挑战体现在对原始文学文本进行精细化标注与划分，需平衡遗忘集、保留集与留存集之间的语义独立性与评估代表性，并设计能够有效触发模型记忆的问答对与提示词，以构建全面且无偏的评估体系。

常用场景

经典使用场景

在机器遗忘研究领域，MUSE-Books数据集为评估文本生成模型的遗忘效能提供了标准化基准。其经典使用场景集中于对预训练语言模型执行遗忘操作后，系统性地量化模型在特定文本内容上的记忆残留程度。研究者通过该数据集中的`verbmem`、`knowmem`等子集，能够精确测量模型对《哈利·波特》系列小说中指定段落逐字记忆的消除效果，以及对相关叙事知识的遗忘深度，从而为不同遗忘算法的横向比较奠定实证基础。

实际应用

在实际应用层面，MUSE-Books数据集为需要处理版权文本或用户隐私数据的人工智能系统提供了关键的评估工具。例如，在数字图书馆或内容推荐系统中，当模型需要依法移除特定受版权保护的小说内容时，可利用该数据集验证遗忘算法是否有效避免了侵权风险。同时，在涉及用户生成内容的平台中，该数据集有助于评估模型对已删除个人信息的遗忘彻底性，为满足数据保护法规如GDPR的“被遗忘权”要求提供技术验证途径。

衍生相关工作

围绕MUSE-Books数据集，已衍生出一系列聚焦于文本遗忘算法优化的经典研究工作。这些工作通常基于该数据集的评估框架，开发新型遗忘训练策略或改进现有参数编辑方法，以在`forget`集上实现更低的知识残留，同时在`retain`集上保持较高的文本生成质量。部分研究进一步探索了序列遗忘与大规模遗忘请求下的模型稳定性问题，扩展了数据集中`scal`与`sust`维度的评估实践，共同推动了机器遗忘技术在生成模型领域的算法演进与理论深化。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集