five

tofu_custom_split_UnReLDP

收藏
Hugging Face2025-12-10 更新2025-12-11 收录
下载链接:
https://huggingface.co/datasets/talmahmud/tofu_custom_split_UnReLDP
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是一个机器生成的英语问答数据集,专注于封闭领域问答任务。它包含多种配置和分割,可能用于遗忘学习实验。数据集为单语(英语),采用MIT许可证。
创建时间:
2025-11-27
原始信息汇总

数据集概述

基本信息

  • 数据集名称: tofu_custom_split_UnReLDP
  • 许可证: MIT
  • 语言: 英语 (en)
  • 语言创建方式: 机器生成
  • 标注创建方式: 机器生成
  • 多语言性: 单语
  • 规模类别: 1K < n < 10K
  • 源数据集: 原始

任务与标签

  • 主要任务类别: 问答
  • 具体任务ID: 封闭域问答
  • 标签: 遗忘学习、问答、自然语言处理、大语言模型

配置与数据文件

数据集包含多个配置,每个配置对应一个JSON数据文件。主要配置组包括:

  • forget系列: 例如 forget01, forget02, forget05, forget10, forget15, forget20,部分包含 _perturbed(扰动)版本。
  • retain系列: 例如 retain180retain199,以及多个 retain_shard 变体。
  • real_authors系列: 包含标准版与扰动版。
  • world_facts系列: 包含标准版与扰动版。
  • shard系列: 包含 shard2shard4 的多种划分与组合(如 P50, R50, R50DP, P50R50DP)。
  • SISA系列: 专门用于SISA方法评估的配置,包含对应的 forgetretainshard 子集。

数据文件地址

所有数据文件均位于以下绝对地址路径下:

  • 主目录: https://huggingface.co/datasets/talmahmud/tofu_custom_split_UnReLDP
  • UnReLDP/ 子目录: https://huggingface.co/datasets/talmahmud/tofu_custom_split_UnReLDP/UnReLDP
  • SISA/ 子目录: https://huggingface.co/datasets/talmahmud/tofu_custom_split_UnReLDP/SISA
搜集汇总
数据集介绍
main_image_url
构建方式
在机器学习遗忘领域,tofu_custom_split_UnReLDP数据集的构建体现了对模型可控遗忘能力的系统性探索。该数据集源自原始TOFU框架,通过机器生成方式创建了英文单语问答对,并精心设计了多种配置划分。其核心构建逻辑在于模拟不同的遗忘场景,例如通过“forget”系列配置指定待遗忘的数据子集,并辅以“perturbed”版本引入扰动以增强鲁棒性评估。同时,数据集采用分片策略,如“shard2”与“shard4”,将保留集进一步细分,以研究数据分布对遗忘效果的影响。这种多层次、结构化的构建方法为量化分析遗忘算法的性能提供了严谨的实验基础。
特点
该数据集的一个显著特征在于其高度模块化和场景覆盖的全面性。它包含了从“forget01”到“forget20”等多种遗忘比例配置,以及对应的扰动变体,能够细致评估模型在不同遗忘强度和数据噪声下的行为。数据集还集成了“SISA”配置,专门用于支持集成学习框架下的遗忘研究。丰富的配置选项,如“retain_shard2_2_F1F2F3”等,允许研究者精确控制训练集中保留与遗忘数据的组合与比例,从而深入探究数据依赖关系与遗忘的边界效应。这种设计使得数据集成为评估遗忘算法泛化能力和鲁棒性的理想测试平台。
使用方法
使用该数据集时,研究者可根据具体实验目标灵活选择相应配置。若需评估基础遗忘性能,可加载如“forget05”与“retain”配置进行对比训练与测试。对于研究数据分片或集成学习的影响,则应选用“shard2_1”、“shard4_3”或“SISA”前缀的配置文件。数据集通常以JSON格式存储,可直接通过HuggingFace的`datasets`库加载,例如指定`config_name`参数为所需配置名。通过对比模型在遗忘集、保留集及扰动集上的表现差异,研究者能够系统性地度量遗忘算法的有效性、特异性以及对模型整体知识保留的影响。
背景与挑战
背景概述
在人工智能与自然语言处理领域,机器遗忘(machine unlearning)作为一项新兴研究方向,旨在使大型语言模型能够有选择性地遗忘特定知识,以应对数据隐私、模型偏见与合规性需求。tofu_custom_split_UnReLDP数据集应运而生,专注于闭域问答任务,通过机器生成的方式构建,为研究者在可控环境下评估遗忘算法的效能提供了标准化基准。该数据集由相关研究团队基于MIT许可发布,其核心研究问题在于探索如何在保留模型整体性能的同时,精准移除指定数据片段的影响,从而推动可解释与可信赖人工智能系统的发展。
当前挑战
该数据集致力于解决机器遗忘在闭域问答场景中的核心挑战,即如何在复杂知识交织的模型中实现选择性遗忘而不损害其余知识的完整性。构建过程中的挑战体现在多个层面:其一,生成高质量、多样化的机器标注数据需确保语义一致性与逻辑连贯性,避免引入噪声;其二,设计精细的数据分割策略(如分片与扰动版本)以模拟真实遗忘场景,要求对数据分布与模型行为有深刻理解;其三,平衡遗忘与保留样本的比例,以评估算法在不同数据配置下的鲁棒性与泛化能力,这对数据集的构建提出了严谨的技术要求。
常用场景
经典使用场景
在机器遗忘研究领域,tofu_custom_split_UnReLDP数据集为评估大语言模型的知识遗忘能力提供了标准化基准。其经典使用场景集中于封闭域问答任务,通过精心设计的“遗忘”与“保留”数据划分,模拟模型需要移除特定知识片段同时保持其他知识完整性的复杂情境。研究者利用该数据集训练和测试遗忘算法,量化模型在遗忘指定事实后的性能变化,从而系统比较不同遗忘策略的有效性。
实际应用
在实际应用层面,tofu_custom_split_UnReLDP数据集服务于大语言模型的合规性与安全性增强。当模型训练数据包含过时、错误或涉及隐私的信息时,可利用该数据集开发的遗忘技术进行针对性修正,避免昂贵的重新训练。这在内容审核系统更新、法律合规调整及用户数据删除请求响应等场景中尤为重要,为实现动态、负责任的人工智能系统部署提供了关键技术支撑。
衍生相关工作
围绕该数据集,已衍生出一系列机器遗忘领域的经典研究工作。例如,基于其分片结构(shard2, shard4)的研究探索了集成学习与模型分治策略在遗忘中的应用;针对扰动数据配置的分析促进了对抗性遗忘与鲁棒性优化方法的发展;而SISA(Sharded, Isolated, Sliced, Aggregated)架构的相关实验则进一步推动了高效、可扩展遗忘框架的设计,为后续的算法创新与理论深化奠定了坚实基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作