five

zjunlp/KnowUnDo

收藏
Hugging Face2024-07-23 更新2024-07-22 收录
下载链接:
https://hf-mirror.com/datasets/zjunlp/KnowUnDo
下载链接
链接失效反馈
官方服务:
资源简介:
KnowUnDo数据集是一个用于知识遗忘和问答任务的数据集,主要应用于自然语言处理(NLP)和大语言模型(LLM)领域。数据集包含两个主要配置:`copyright`和`privacy`,每个配置下又分为`unlearn`和`retention`两个子集。数据集的使用可以通过HuggingFace的`load_dataset`函数进行加载。

The KnowUnDo dataset is designed for knowledge unlearning and question-answering tasks, primarily used in the fields of Natural Language Processing (NLP) and Large Language Models (LLMs). The dataset includes two main configurations: `copyright` and `privacy`, each of which is further divided into `unlearn` and `retention` subsets. The dataset can be loaded using the `load_dataset` function from HuggingFace.
提供机构:
zjunlp
原始信息汇总

KnowUnDo 数据集概述

基本信息

  • 许可证: MIT
  • 语言: 英语
  • 标签: 知识, 遗忘, 问答, KnowUnDo, NLP, 大语言模型
  • 任务类别: 问答
  • 任务ID: 封闭领域问答
  • 数据集大小: 1K<n<10K

配置与数据文件

  • 配置名称: copyright, privacy
  • 数据文件:
    • copyright:
      • unlearn: copyright/unlearn.json
      • retention: copyright/retention.json
    • privacy:
      • unlearn: privacy/unlearn.json
      • retention: privacy/retention.json

使用示例

python from datasets import load_dataset

dataset = load_dataset("zjunlp/KnowUnDo", name=copyright, split=unlearn)

搜集汇总
数据集介绍
main_image_url
构建方式
在知识遗忘研究领域,KnowUnDo数据集为评估大语言模型的知识遗忘能力而精心构建。该数据集借鉴了TOFU、Unlearn Dataset等现有工作的基础,通过系统化整理与筛选,形成了涵盖版权与隐私两大主题的问答对。其构建过程注重数据的代表性与平衡性,每个配置均包含“遗忘”与“保留”两个子集,旨在模拟模型需要遗忘特定知识同时保留相关知识的复杂场景,为量化遗忘效果提供了结构化基准。
特点
该数据集的核心特征在于其针对性的任务设计,专注于知识遗忘这一新兴研究方向。数据集包含“copyright”与“privacy”两种配置,每种配置下细分“unlearn”与“retention”数据,分别用于引导模型遗忘特定知识片段和检验其保留其他知识的能力。这种二元划分结构使得研究者能够精确评估模型在选择性遗忘过程中的性能变化,数据规模适中,聚焦于封闭域问答任务,具有明确的研究指向性。
使用方法
使用该数据集时,研究者可通过Hugging Face的`datasets`库便捷加载。指定数据集名称“zjunlp/KnowUnDo”后,需进一步选择配置名(如“copyright”)与切分名(如“unlearn”),即可获取相应的问答对数据进行实验。这种模块化调用方式便于快速集成到现有评估流程中,支持对模型在知识遗忘任务上的表现进行标准化测试与分析,为相关算法开发与比较提供了便利。
背景与挑战
背景概述
随着大型语言模型在知识密集型任务中的广泛应用,模型所记忆的知识可能涉及版权、隐私等敏感信息,知识遗忘技术应运而生。由浙江大学团队于2024年创建的KnowUnDo数据集,专注于评估大语言模型的知识遗忘能力,其核心研究问题在于如何高效、精准地促使模型遗忘特定知识,同时保持其他知识的完整性。该数据集通过构建版权与隐私两大场景,为知识遗忘研究提供了标准化评估基准,推动了模型安全与伦理领域的发展。
当前挑战
在领域问题层面,知识遗忘面临双重挑战:一是确保模型在遗忘目标知识后,其相关推理与泛化能力不受损害;二是避免遗忘过程中的灾难性遗忘,即模型在移除特定知识时意外丢失其他重要信息。在构建过程中,数据集的挑战主要在于高质量遗忘样本的筛选与标注,需精确界定待遗忘知识的边界,并构建对应的保留集以验证模型遗忘的针对性,这对数据构建的严谨性与平衡性提出了较高要求。
常用场景
经典使用场景
在大型语言模型的知识管理领域,KnowUnDo数据集为知识遗忘研究提供了标准化的评估基准。该数据集通过精心设计的版权与隐私配置,模拟了模型需遗忘特定知识片段而保留其他信息的场景,常用于训练和测试遗忘算法。研究者利用其结构化的遗忘与保留分割,系统评估模型在移除敏感或受保护数据后的性能变化,为知识可控性探索奠定了实验基础。
实际应用
在实际部署中,KnowUnDo支持开发符合数据合规要求的大型语言模型系统。例如,当模型需要删除涉及用户隐私或受版权保护的内容时,基于该数据集训练的遗忘技术可针对性移除特定知识,同时保持模型在其他领域的性能稳定。这为法律敏感行业如医疗、金融及内容创作提供了技术保障,助力实现动态、合规的知识库更新与管理。
衍生相关工作
KnowUnDo的构建借鉴并拓展了TOFU、Unlearn Dataset等先驱工作,其发布进一步激发了知识遗忘领域的算法创新。后续研究基于该数据集开发了梯度修正、参数隔离等遗忘技术,并衍生出针对多模态、多语言场景的泛化性探索。这些工作共同丰富了机器学习安全与伦理的研究图谱,促进了模型生命周期管理的理论框架完善。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作