TOFU

Hugging Face2025-07-19 更新2025-07-20 收录

下载链接：

https://huggingface.co/datasets/tamarsonha/TOFU

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个包含问题和答案对的数据集，设计用于研究记忆和遗忘。数据集包含多个配置，每个配置都有不同的训练集和示例数量。具体包括tofu系列和forget系列，分别对应不同的数据量和训练目的。

This dataset consists of question-answer pairs and is designed for research on memory and forgetting. The dataset includes multiple configurations, each with distinct training set sizes and quantities of examples. Specifically, it encompasses the Tofu series and the Forget series, which correspond to different data volumes and training objectives respectively.

创建时间：

2025-07-05

原始信息汇总

数据集概述

基本信息

数据集名称: TOFU
数据集地址: https://huggingface.co/datasets/tamarsonha/TOFU
下载大小: 2,218,629 字节
数据集大小: 4,381,392 字节

数据集结构

默认配置 (default)

特征:
- question: 字符串类型
- answer: 字符串类型
数据分割:
- tofu50_holdout: 2,000 个样本，466,074 字节
- tofu40_retain: 1,600 个样本，418,200 字节
- tofu50_full: 2,000 个样本，524,724 字节
- tofu90: 3,600 个样本，884,274 字节
- tofu95: 3,800 个样本，938,540 字节
- tofu99: 3,960 个样本，979,992 字节
- forget10: 400 个样本，106,524 字节
- forget05: 200 个样本，52,258 字节
- forget01: 40 个样本，10,806 字节

其他配置

forget01:
- 训练集: 40 个样本，10,806 字节
forget05:
- 训练集: 200 个样本，52,258 字节
forget10:
- 训练集: 400 个样本，106,524 字节
tofu40_retain:
- 训练集: 1,600 个样本，418,200 字节
tofu50_full:
- 训练集: 2,000 个样本，524,724 字节
tofu50_holdout:
- 训练集: 2,000 个样本，466,074 字节
tofu90:
- 训练集: 3,600 个样本，884,274 字节
tofu95:
- 训练集: 3,800 个样本，938,540 字节
tofu99:
- 训练集: 3,960 个样本，979,992 字节

搜集汇总

数据集介绍

构建方式

TOFU数据集通过精心设计的问答对结构构建，涵盖多个子集配置以适应不同研究需求。数据以字符串形式存储问题和答案，通过标准化流程确保格式统一，各子集规模从40到3960个样本不等，满足不同规模实验需求。数据分割策略采用holdout与retain机制，为模型训练与验证提供灵活支持。

特点

该数据集最显著的特征在于其模块化设计，提供从tofu40到tofu99以及forget系列共9种子集配置。每个子集具有精确的样本量与字节大小标注，便于研究者计算资源消耗。数据采用纯文本格式存储，兼顾轻量化与可读性优势，特别适合自然语言处理任务的基准测试。

使用方法

使用TOFU数据集时，可通过HuggingFace平台直接加载特定配置的子集。研究者在模型训练阶段可选用tofu系列数据进行主体实验，利用forget子集进行遗忘学习研究。数据加载接口支持标准分割调用，各子集路径清晰标注，便于快速集成到现有机器学习流程中。

背景与挑战

背景概述

TOFU数据集是近年来自然语言处理领域中针对模型遗忘行为研究而构建的重要资源。该数据集由专业研究团队设计，旨在探索大规模语言模型在特定信息遗忘任务中的表现机制。其核心研究问题聚焦于模型对已学习知识的可控遗忘能力，这一研究方向对提升AI系统的数据隐私保护、知识更新效率具有深远意义。数据集通过精心设计的问答对结构，为量化评估模型遗忘效果提供了标准化基准，推动了可解释性AI与机器学习安全性的交叉研究进展。

当前挑战

TOFU数据集面临的核心挑战体现在两个维度：在领域问题层面，如何准确定义和测量语言模型的遗忘行为仍存在理论空白，现有评估指标难以全面捕捉知识消失的复杂过程；在构建技术层面，创建具有不同遗忘难度的分层数据需要平衡问题复杂度与答案唯一性，确保数据既能反映真实遗忘场景又保持实验可重复性。数据集的划分策略还需解决模型性能评估中的过拟合问题，这对样本分布的多样性和代表性提出了更高要求。

常用场景

经典使用场景

在自然语言处理领域，TOFU数据集因其结构化的问答对设计，成为评估模型记忆与遗忘机制的经典基准。研究者通过分析模型在不同保留比例（如tofu40_retain与tofu99）下的表现差异，能够精准量化知识留存率与遗忘动态，为理解神经网络的可塑性提供实证基础。

解决学术问题

该数据集有效解决了持续学习中的灾难性遗忘问题，通过分级的遗忘样本（forget01至forget10）和保留样本组合，为研究模型参数更新与知识稳定性之间的权衡关系提供了标准化实验环境。其多比例分割特性显著推进了机器学习领域对长期知识保持机制的理论探索。

衍生相关工作

基于TOFU的基准特性，学术界已衍生出多项重要研究，包括基于动态掩码的渐进式遗忘算法、知识蒸馏增强的持续学习框架等。这些工作通过复用数据集的层级划分标准，使得不同方法间的性能对比具备可重复性，推动了机器学习鲁棒性研究的规范化发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集