muse-bench/MUSE-Books|机器学习数据集|数据隐私数据集

hugging_face2024-07-10 更新2024-06-29 收录

机器学习

数据隐私

下载链接：

https://hf-mirror.com/datasets/muse-bench/MUSE-Books

下载链接

链接失效反馈

资源简介：

MUSE-Books是一个全面的机器遗忘评估基准，旨在评估遗忘模型的六个关键属性：无逐字记忆、无知识记忆、无隐私泄露、对非移除数据的效用保持、移除请求大小的可扩展性以及顺序遗忘请求的可持续性。该数据集包含J.K.罗琳所写的《哈利·波特》系列书籍，分为五个子集：`raw`、`verbmem`、`knowmem`、`privleak`和`train`。每个子集都有特定的用途和分割，如`verbmem`用于评估逐字记忆，`knowmem`用于评估知识记忆和效用保持。

MUSE-Books is a comprehensive machine unlearning evaluation benchmark that assesses six key properties for unlearned models: no verbatim memorization, no knowledge memorization, no privacy leakage, utility preservation on data not intended for removal, scalability with respect to the size of removal requests, and sustainability over sequential unlearning requests. The dataset comprises the Harry Potter book series written by J. K. Rowling and is divided into five subsets: `raw`, `verbmem`, `knowmem`, `privleak`, and `train`. Each subset serves specific purposes and is partitioned accordingly, such as `verbmem` for evaluating verbatim memorization and `knowmem` for assessing knowledge memorization and utility preservation.

提供机构：

muse-bench

原始信息汇总

数据集概述

数据集名称

MUSE-Books

数据集描述

MUSE-Books 是一个综合的机器遗忘评估基准，包含五个子集：raw、verbmem、knowmem、privleak 和 train。每个子集包含不同的数据文件和特征，用于评估机器遗忘模型的不同属性。

子集详情

子集：raw

特征：
- text: string
分割：
- retain2: 1969626 bytes, 13 examples
- forget: 4096855 bytes, 4 examples
- retain1: 836924 bytes, 12 examples
- holdout: 2328993 bytes, 3 examples
下载大小：5386338 bytes
数据集大小：9232398 bytes

子集：verbmem

特征：
- prompt: string
- gt: string
分割：
- forget: 417969 bytes, 100 examples
下载大小：283251 bytes
数据集大小：417969 bytes

子集：knowmem

特征：
- answer: string
- question: string
分割：
- retain_qa_icl: 1143 bytes, 10 examples
- retain_qa: 9398 bytes, 100 examples
- forget_qa: 9896 bytes, 100 examples
- forget_qa_icl: 1033 bytes, 10 examples
下载大小：21229 bytes
数据集大小：21470 bytes

子集：privleak

特征：
- text: string
分割：
- retain: 780073 bytes, 100 examples
- forget: 744007 bytes, 100 examples
- holdout: 706326 bytes, 100 examples
下载大小：1329454 bytes
数据集大小：2230406 bytes

子集：train

特征：
- text: string
分割：
- retain2: 1969626 bytes, 13 examples
- forget: 4096855 bytes, 4 examples
- retain1: 836924 bytes, 12 examples
下载大小：3997041 bytes
数据集大小：6903405 bytes

数据文件路径

knowmem：
- retain_qa_icl: knowmem/retain_qa_icl-*
- retain_qa: knowmem/retain_qa-*
- forget_qa: knowmem/forget_qa-*
- forget_qa_icl: knowmem/forget_qa_icl-*
privleak：
- retain: privleak/retain-*
- forget: privleak/forget-*
- holdout: privleak/holdout-*
raw：
- retain2: raw/retain2-*
- forget: raw/forget-*
- retain1: raw/retain1-*
- holdout: raw/holdout-*
train：
- retain2: train/retain2-*
- forget: train/forget-*
- retain1: train/retain1-*
verbmem：
- forget: verbmem/forget-*

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

GME Data

关于2021年GameStop股票活动的数据，包括每日合并的GME短期成交量数据、每日失败交付数据、可借股数、期权链数据以及不同时间框架的开盘/最高/最低/收盘/成交量条形图。

github 收录

URPC系列数据集, S-URPC2019, UDD

URPC系列数据集包括URPC2017至URPC2020DL，主要用于水下目标的检测和分类。S-URPC2019专注于水下环境的特定检测任务。UDD数据集信息未在README中详细描述。

github 收录

Subway Dataset

该数据集包含了全球多个城市的地铁系统数据，包括车站信息、线路图、列车时刻表、乘客流量等。数据集旨在帮助研究人员和开发者分析和模拟城市交通系统，优化地铁运营和乘客体验。

www.kaggle.com 收录

YOLO Drone Detection Dataset

为了促进无人机检测模型的开发和评估，我们引入了一个新颖且全面的数据集，专门为训练和测试无人机检测算法而设计。该数据集来源于Kaggle上的公开数据集，包含在各种环境和摄像机视角下捕获的多样化的带注释图像。数据集包括无人机实例以及其他常见对象，以实现强大的检测和分类。

github 收录

中国农村金融统计数据

该数据集包含了中国农村金融的统计信息，涵盖了农村金融机构的数量、贷款余额、存款余额、金融服务覆盖率等关键指标。数据按年度和地区分类，提供了详细的农村金融发展状况。