llmunlearn/unlearn_dataset

Name: llmunlearn/unlearn_dataset
Creator: llmunlearn
Published: 2024-02-28 05:45:56
License: 暂无描述

Hugging Face2024-02-28 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/llmunlearn/unlearn_dataset

下载链接

链接失效反馈

官方服务：

资源简介：

unlearn_dataset数据集是一个用于评估预训练大型语言模型在不同领域（如arXiv、GitHub）中遗忘方法的基准数据集。该数据集包含三个配置：arxiv、github和general，每个配置有不同的分割（如forget、approximate、retain等）。数据集的主要目的是帮助研究人员评估和开发遗忘方法，以改进大型语言模型的性能。

提供机构：

llmunlearn

原始信息汇总

数据集概述

数据集配置

arXiv

特征:
- text: 数据类型为 string
分割:
- forget: 字节数为 22127152，示例数为 500
- approximate: 字节数为 371246809，示例数为 6155
- retain: 字节数为 84373706，示例数为 2000
下载大小: 216767075 字节
数据集大小: 477747667 字节

general

特征:
- text: 数据类型为 string
分割:
- evaluation: 字节数为 4628036，示例数为 1000
- retain: 字节数为 24472399，示例数为 5000
下载大小: 17206310 字节
数据集大小: 29100435 字节

github

特征:
- text: 数据类型为 string
分割:
- forget: 字节数为 14069535，示例数为 2000
- approximate: 字节数为 82904771，示例数为 15815
- retain: 字节数为 28749659，示例数为 4000
下载大小: 43282163 字节
数据集大小: 125723965 字节

数据文件配置

arXiv

分割:
- forget: 路径为 arxiv/forget-*
- approximate: 路径为 arxiv/approximate-*
- retain: 路径为 arxiv/retain-*

general

分割:
- evaluation: 路径为 general/evaluation-*
- retain: 路径为 general/retain-*

github

分割:
- forget: 路径为 github/forget-*
- approximate: 路径为 github/approximate-*
- retain: 路径为 github/retain-*

5,000+

优质数据集

54 个

任务类型

进入经典数据集