ngiorgos/RWKU

Name: ngiorgos/RWKU
Creator: ngiorgos
Published: 2026-03-28 14:32:53
License: 暂无描述

Hugging Face2026-03-28 更新2026-03-29 收录

下载链接：

https://hf-mirror.com/datasets/ngiorgos/RWKU

下载链接

链接失效反馈

官方服务：

资源简介：

--- dataset_info: - config_name: qa features: - name: question dtype: string - name: answer dtype: string - name: subject dtype: string splits: - name: forget_level1 num_bytes: 19315 num_examples: 180 - name: forget_level2 num_bytes: 14289 num_examples: 143 - name: forget_level3 num_bytes: 51616 num_examples: 342 - name: neighbor_level1 num_bytes: 30261 num_examples: 270 - name: neighbor_level2 num_bytes: 26775 num_examples: 270 download_size: 63227 dataset_size: 142256 - config_name: qa_with_paraphrases features: - name: question dtype: string - name: answer dtype: string - name: subject dtype: string - name: paraphrases sequence: string splits: - name: forget_level1 num_bytes: 160039 num_examples: 180 - name: forget_level2 num_bytes: 108426 num_examples: 143 - name: forget_level3 num_bytes: 363151 num_examples: 342 - name: neighbor_level1 num_bytes: 247604 num_examples: 270 - name: neighbor_level2 num_bytes: 206162 num_examples: 270 download_size: 351946 dataset_size: 1085382 configs: - config_name: qa data_files: - split: forget_level1 path: qa/forget_level1-* - split: forget_level2 path: qa/forget_level2-* - split: forget_level3 path: qa/forget_level3-* - split: neighbor_level1 path: qa/neighbor_level1-* - split: neighbor_level2 path: qa/neighbor_level2-* - config_name: qa_with_paraphrases data_files: - split: forget_level1 path: qa_with_paraphrases/forget_level1-* - split: forget_level2 path: qa_with_paraphrases/forget_level2-* - split: forget_level3 path: qa_with_paraphrases/forget_level3-* - split: neighbor_level1 path: qa_with_paraphrases/neighbor_level1-* - split: neighbor_level2 path: qa_with_paraphrases/neighbor_level2-* ---

提供机构：

ngiorgos

搜集汇总

数据集介绍

构建方式

在机器遗忘研究领域，RWKU数据集通过精心设计的结构来支持模型知识编辑与遗忘的评估。该数据集构建了四个核心配置，其中forget_data与retain_data分别提供了待遗忘主题的文本段落及其对应的保留文本，形成了知识消褪与保留的对照基础。qa配置则进一步生成了针对遗忘主题及其邻近主题的问答对，并依据遗忘难度划分为不同级别，而qa_with_paraphrases配置在此基础上引入了同义改写问题，以增强评估的鲁棒性。这种多层次、对照式的构建方法，为系统化研究模型的知识管理能力奠定了数据基础。

特点

RWKU数据集展现出鲜明的结构化与层级化特征，其核心在于模拟知识编辑过程中的遗忘与保留机制。数据集通过forget_data与retain_data的并行设置，清晰界定了目标遗忘知识与应保留知识之间的边界。qa配置中的forget与neighbor划分，以及level1与level2的难度分级，精细刻画了知识遗忘的直接影响范围与梯度效应。尤为突出的是，qa_with_paraphrases配置通过提供问题的多种同义表达，有效挑战模型对知识本质的理解而非对表面语言模式的依赖，从而提升了评估结果的可靠性与泛化能力。

使用方法

利用RWKU数据集进行实验时，研究者可依据具体的研究目标灵活选用不同配置。若旨在评估模型对特定知识的遗忘效果，可联合使用forget_data作为训练输入，并以对应级别的qa或qa_with_paraphrases作为测试集，通过模型在遗忘主题上性能的下降来量化遗忘成功率。同时，retain_data与neighbor级别的问答对可用于监控遗忘过程的特异性，确保非目标知识得以完好保留。这种使用方法支持对机器遗忘算法进行多维度、可控的实证分析，推动该领域向更严谨、可解释的方向发展。

背景与挑战

背景概述

RWKU数据集作为机器学习遗忘研究领域的重要资源，其构建旨在应对大型语言模型在知识编辑与可控遗忘方面的核心难题。该数据集由相关研究团队精心设计，聚焦于探索模型在特定知识片段上的选择性遗忘能力，同时保持其他关联知识的完整性。通过引入遗忘级别与邻近知识划分，RWKU为评估模型的知识编辑鲁棒性提供了结构化基准，推动了可解释人工智能与伦理对齐领域的前沿进展。

当前挑战

RWKU数据集致力于解决知识编辑中精准遗忘与知识保持的平衡挑战，要求模型在遗忘特定主题时避免对相关概念产生干扰。在构建过程中，数据收集需确保遗忘主题与保留主题间具有语义关联性，以模拟真实场景下的知识依赖关系。同时，生成高质量的问题-答案对及其复述变体，需要克服自然语言表达的多样性，以全面评估模型在不同表述下的遗忘一致性。

常用场景

经典使用场景

在机器学习和自然语言处理领域，RWKU数据集被广泛应用于模型遗忘机制的研究。该数据集通过精心设计的遗忘数据、保留数据以及多级问答配置，为评估语言模型在特定知识上的遗忘效果提供了标准化的实验环境。研究者通常利用其分级的遗忘级别和邻居级别，模拟模型在移除特定主题知识后的性能变化，从而深入探索知识编辑与模型稳定性之间的动态平衡。

衍生相关工作

围绕RWKU数据集，学术界衍生了一系列经典研究工作。这些工作主要集中在知识编辑算法的改进、模型遗忘效率的评估框架构建，以及遗忘与保留知识间交互影响的深入分析。相关研究不仅拓展了数据集在神经符号集成中的应用，还催生了针对大规模预训练模型的知识管理新范式，为后续的模型轻量化与终身学习提供了重要参考。

数据集最近研究