custom_tofu

Hugging Face2025-05-16 更新2025-05-17 收录

下载链接：

https://huggingface.co/datasets/talmahmud/custom_tofu

下载链接

链接失效反馈

官方服务：

资源简介：

custom_tofu数据集是一个单语言（英文）的数据集，专注于问答任务，特别是封闭域问答。数据集由机器生成，大小在1K到10K之间。它包含多个配置，用于不同的遗忘和保留策略，以及真实作者的标记和世界事实的配置。数据集的许可为MIT。

创建时间：

2025-05-16

原始信息汇总

数据集概述

基本信息

数据集名称: custom_tofu
语言: 英语 (en)
语言创建方式: 机器生成
标注创建方式: 机器生成
许可协议: MIT
多语言性: 单语言 (monolingual)
数据规模: 1K < n < 10K
源数据集: 原始数据 (original)

任务类别

任务类别: 问答 (question-answering)
任务ID: 封闭域问答 (closed-domain-qa)

配置信息

数据集包含多个配置，每个配置对应一个JSON文件：

主要配置

full: 完整数据集 (full.json)
private20: 私有20%数据 (private20.json)
public80: 公开80%数据 (public80.json)

保留数据配置

DP_retain_1 到 DP_retain_10: 保留数据子集 (DP_retain_1.json 到 DP_retain_10.json)

遗忘子集配置

forget_subset_private2_1 到 forget_subset_private2_10: 遗忘子集 (forget_subset_private2_1.json 到 forget_subset_private2_10.json)
forget_subset_private2_1_perturbed 到 forget_subset_private2_10_perturbed: 扰动后的遗忘子集 (forget_subset_private2_1_perturbed.json 到 forget_subset_private2_10_perturbed.json)

私有数据配置

private2_1 到 private2_10: 私有数据子集 (private2_1.json 到 private2_10.json)

保留99%遗忘1%配置

retain99_forget_1 到 retain99_forget_10: 保留99%数据并遗忘1%的子集 (retain99_forget_1.json 到 retain99_forget_10.json)

其他配置

real_authors: 真实作者数据 (real_authors.json)
real_authors_perturbed: 扰动后的真实作者数据 (real_authors_perturbed.json)
retain_perturbed: 扰动后的保留数据 (retain_perturbed.json)
world_facts: 世界事实数据 (world_facts.json)
world_facts_perturbed: 扰动后的世界事实数据 (world_facts_perturbed.json)

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，custom_tofu数据集采用机器生成方式构建，专注于问答任务的研究与应用。该数据集基于原始数据源，通过自动化流程生成英文单语标注，规模控制在1千至1万条数据之间。其特色在于提供多种配置版本，包括完整数据集、不同比例的公开与私有数据划分，以及针对遗忘学习场景设计的子集变体，为模型训练与评估提供丰富维度。

特点

custom_tofu数据集以封闭域问答为核心特征，涵盖未学习机制和大型语言模型相关研究标签。数据组织呈现高度模块化特点，包含基础事实、扰动版本及特定比例保留/遗忘子集，支持差分隐私研究。各配置文件的精细划分使研究者能精准控制训练数据的分布特性，尤其适合探究模型记忆与遗忘机制的边界条件。

使用方法

该数据集通过标准JSON格式提供多版本数据访问，研究者可根据实验需求选择完整集或特定子集配置。典型应用场景包括：使用私有子集评估模型隐私保护性能，通过扰动版本测试鲁棒性，或利用保留/遗忘组合研究知识消除效率。配置文件的层级设计支持从基础问答训练到高级未学习研究的全流程实验验证。

背景与挑战

背景概述

custom_tofu数据集是近年来自然语言处理领域针对机器遗忘（machine unlearning）任务构建的专用语料库，专注于封闭域问答场景下的数据删除效应研究。该数据集由研究机构通过机器生成方式构建，采用MIT许可协议，包含1K至10K量级的英文样本，其核心价值在于为大型语言模型中的选择性遗忘机制提供基准测试平台。作为首个系统化探索知识撤销与隐私保护的问答数据集，custom_tofu通过精细划分的保留集与遗忘集配置，推动了可解释AI与合规机器学习的发展。

当前挑战

该数据集面临双重技术挑战：在领域问题层面，封闭域问答中的精确遗忘要求模型在删除特定知识时保持其他知识的完整性，这种局部参数调整与全局性能平衡的难题尚未完全解决；在构建过程中，机器生成内容需模拟真实知识分布，同时确保遗忘集与保留集之间的边界清晰性，而动态扰动子集的创建又需维持语义一致性与逻辑连贯性，这对数据工程的严谨性提出了极高要求。

常用场景

经典使用场景

在自然语言处理领域，custom_tofu数据集因其专注于机器遗忘（machine unlearning）和问答任务而备受关注。该数据集通过精心设计的子集划分，为研究者提供了评估模型在特定数据上遗忘能力的标准测试平台。其经典使用场景包括验证神经网络模型在删除敏感数据后的性能变化，以及探索模型在保留核心知识的同时遗忘特定信息的能力。

衍生相关工作

围绕custom_tofu数据集已产生多项重要研究，包括《Machine Unlearning for Question Answering Systems》等开创性论文。研究者们基于其子集配置开发了梯度反转遗忘算法，并提出了量化遗忘效果的新指标。这些工作推动了可解释AI和隐私保护机器学习两个方向的交叉发展。

数据集最近研究