tofu_ext1

Hugging Face2025-05-21 更新2025-05-22 收录

下载链接：

https://huggingface.co/datasets/talmahmud/tofu_ext1

下载链接

链接失效反馈

官方服务：

资源简介：

tofu_ext1数据集是一个英语单语种问题回答数据集，主要用于封闭域问题回答。它的大小介于1K到10K之间，由机器生成，并提供了多种配置版本，包括公开和私有数据，以及一些经过特殊处理的数据变体。

创建时间：

2025-05-20

原始信息汇总

数据集概述：tofu_ext1

基本信息

名称: tofu_ext1
语言: 英语 (en)
语言创建方式: 机器生成
标注创建方式: 机器生成
许可协议: MIT
多语言性: 单语言 (monolingual)
规模: 1K<n<10K (介于1,000到10,000条数据之间)
标签: unlearning, question answering, NLP, LLM

任务类别

主要任务: 问答 (question-answering)
任务子类: 封闭域问答 (closed-domain-qa)

数据来源

源数据集: 原始数据 (original)

配置信息

数据集包含多个配置，每个配置对应不同的数据文件：

主要配置

full: 完整数据集 (default)
- 数据文件: full.json

公共数据配置

public80: 公共数据子集
- 数据文件: public80.json

私有数据配置

private5_1 至 private5_4: 5条私有数据子集
- 数据文件: private5_1.json 至 private5_4.json
private10_1 和 private10_2: 10条私有数据子集
- 数据文件: private10_1.json 和 private10_2.json
private20: 20条私有数据子集
- 数据文件: private20.json

遗忘数据配置

forget01_from_private5_1 至 forget01_from_private5_4: 从5条私有数据子集中遗忘的数据
- 数据文件: forget01_from_private5_1.json 至 forget01_from_private5_4.json
- 扰动版本: forget01_from_private5_1_perturbed.json 至 forget01_from_private5_4_perturbed.json
forget01_from_private10_1 和 forget01_from_private10_2: 从10条私有数据子集中遗忘的数据
- 数据文件: forget01_from_private10_1.json 和 forget01_from_private10_2.json
- 扰动版本: forget01_from_private10_1_perturbed.json 和 forget01_from_private10_2_perturbed.json
forget01_from_private20: 从20条私有数据子集中遗忘的数据
- 数据文件: forget01_from_private20.json
- 扰动版本: forget01_from_private20_perturbed.json

其他配置

world_facts: 世界事实数据
- 数据文件: world_facts.json
- 扰动版本: world_facts_perturbed.json
real_authors: 真实作者数据
- 数据文件: real_authors.json
- 扰动版本: real_authors_perturbed.json
retain_perturbed: 保留的扰动数据
- 数据文件: retain_perturbed.json

搜集汇总

数据集介绍

构建方式

tofu_ext1数据集采用机器生成的方式构建，专注于问答任务领域，尤其适用于封闭域问答场景。数据源为原创内容，通过自动化流程生成标注，确保了数据的一致性和可扩展性。数据集包含多个子集配置，如完整数据集、公开子集和私有子集，并针对遗忘学习任务设计了特殊的数据划分，为研究提供了丰富的实验材料。

特点

该数据集以英文为主，规模介于1K到10K之间，具有单语特性。其独特之处在于针对机器遗忘学习任务设计了多样化的子集，包括原始数据及其扰动版本，为模型鲁棒性研究提供了基础。数据标签由机器生成，覆盖了世界事实、真实作者等多个主题，适用于自然语言处理和大型语言模型的研究。

使用方法

研究人员可通过加载不同的配置文件访问特定子集，如完整数据集或特定比例的私有数据。针对遗忘学习研究，可使用forget系列子集进行实验验证。扰动版本的数据可用于测试模型抗干扰能力。数据集采用JSON格式存储，便于直接集成到主流机器学习框架中进行分析和处理。

背景与挑战

背景概述

tofu_ext1数据集是近年来自然语言处理领域中针对机器遗忘（machine unlearning）和问答系统（question answering）研究而构建的重要资源。该数据集由机器生成，专注于封闭域问答任务，旨在探索大规模语言模型在特定数据点遗忘方面的表现。随着人工智能伦理和隐私保护需求的日益增长，机器遗忘技术成为研究热点，tofu_ext1应运而生，为评估模型在删除敏感或特定信息后的性能提供了标准化基准。数据集采用模块化设计，包含多种配置，如原始数据、扰动数据和遗忘子集，反映了研究社区对模型可解释性和可控性的迫切需求。

当前挑战

tofu_ext1数据集面临的挑战主要体现在两个方面：技术层面，封闭域问答任务要求模型在有限知识范围内保持高精度，而遗忘特定信息可能导致模型在相关领域的性能下降，这种平衡难以把握；数据构建层面，机器生成的内容虽然效率高，但语义一致性和逻辑连贯性的质量控制存在难度，特别是扰动数据的生成需要确保既引入足够变异又不破坏原始语义。此外，评估机器遗忘效果缺乏统一标准，如何量化遗忘程度及其对模型整体能力的影响仍是待解难题。

常用场景

经典使用场景

在自然语言处理领域，tofu_ext1数据集因其专注于封闭域问答任务而备受关注。该数据集通过机器生成的方式构建，涵盖了丰富的问答对，特别适用于测试和评估大型语言模型在特定知识领域的表现。研究人员常利用其精细划分的子集（如private5、private10等）进行模型微调实验，探索不同数据规模对模型性能的影响。

实际应用

该数据集的实际价值体现在智能客服系统的优化场景中。企业可利用其扰动后的问答对训练模型抵抗误导性输入的能力，提升系统鲁棒性。医疗、金融等敏感领域通过模拟数据遗忘实验，可验证模型在遵守数据删除请求时的合规表现，满足GDPR等法规要求。

衍生相关工作

基于tofu_ext1的经典研究包括《Machine Unlearning for Question Answering Systems》等开创性论文，这些工作系统性地建立了遗忘学习在NLP任务的评估框架。后续研究进一步扩展了数据集的用途，如将其应用于对抗样本生成、模型鲁棒性测试等领域，衍生出多个跨学科研究方向。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集