Yofuria/ICE

Name: Yofuria/ICE
Creator: Yofuria
Published: 2024-07-03 05:35:45
License: 暂无描述

Hugging Face2024-07-03 更新2024-07-06 收录

下载链接：

https://hf-mirror.com/datasets/Yofuria/ICE

下载链接

链接失效反馈

官方服务：

资源简介：

ICE数据集用于论文《In-Context Editing: Learning Knowledge from Self-Induced Distributions》的工作，代码已在GitHub上发布。该数据集基于KnowEdit数据集构建，并使用GPT-4o为每个数据生成上下文。数据集结构包括四个数据集（WikiData_recent、ZsRE、WikiBio、WikiData_counter fact），涵盖两个知识编辑任务：知识插入和知识修改。

The ICE dataset is constructed for the paper In-Context Editing: Learning Knowledge from Self-Induced Distributions, based on the KnowEdit dataset and using GPT-4o to generate contexts. It includes four sub-datasets: WikiData_recent, ZsRE, WikiBio, and WikiData_counter_fact, used to evaluate two knowledge editing tasks: knowledge insertion and knowledge modification. The datasets file structure consists of four JSON files, each corresponding to one of the sub-datasets.

提供机构：

Yofuria

原始信息汇总

数据集卡片：ICE

概述

该数据集用于工作：In-Context Editing: Learning Knowledge from Self-Induced Distributions。

数据来源

该数据集基于KnowEdit构建，并使用GPT-4生成每个数据点的上下文。

数据结构

该数据集包含四个子数据集，用于评估方法的通用性：

WikiData<sub>recent</sub>
ZsRE
WikiBio
WikiData<sub>counter fact</sub>

这些数据集涵盖了两个知识编辑任务：

任务	知识插入	知识修改
数据集	WikiData<sub>recent</sub>	ZsRE
类型	事实	问答

文件结构预期如下：

引用

如需使用该数据集或对相关工作感兴趣，请引用：

BibTeX: bibtex @article{qi2024ice, title={In-Context Editing: Learning Knowledge from Self-Induced Distributions}, author={Siyuan Qi and Bangcheng Yang and Kailin Jiang and Xiaobo Wang and Jiaqi Li and Yifan Zhong and Yaodong Yang and Zilong Zheng}, year={2024}, eprint={2406.11194}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2406.11194}, }

搜集汇总

数据集介绍

构建方式

在知识编辑研究领域，ICE数据集的构建体现了对现有资源的创新性整合与扩展。该数据集以KnowEdit为基础框架，通过引入GPT-4o模型为每个数据条目生成相应的上下文信息，从而构建出覆盖多种知识编辑任务的综合性语料库。这一构建过程不仅继承了原有数据集的结构化知识表示，还通过大语言模型的生成能力丰富了上下文维度，为模型在动态知识更新与修正方面的研究提供了更为贴近实际应用场景的数据支持。

特点

ICE数据集的核心特点在于其多任务覆盖与结构化设计。该数据集整合了WikiData_recent、ZsRE、WikiBio及WikiData_counterfact四个子集，分别对应知识插入、问答式知识修改、幻觉修正及反事实知识修改等不同任务类型。这种设计使得数据集能够全面评估知识编辑方法在事实更新、问答适应性、文本生成纠偏及反事实推理等多维度的性能，为研究提供了跨任务泛化能力的检验平台。

使用方法

在自然语言处理的知识编辑任务中，ICE数据集的使用遵循其模块化结构。研究者可依据具体任务需求，分别加载wikibio、wikidata_counterfact、wikidata_recent或zsre子集文件，每个文件均包含经过上下文增强的知识编辑样本。使用时应结合原始论文提出的In-Context Editing框架，将数据集中的样本作为上下文示例输入模型，通过自诱导分布的方式引导模型学习知识更新模式，进而评估模型在知识保持与编辑效果方面的表现。

背景与挑战

背景概述

ICE数据集诞生于2024年，由研究团队为探索大语言模型知识编辑新范式而构建。该数据集源于论文《In-Context Editing: Learning Knowledge from Self-Induced Distributions》，旨在通过上下文学习机制，实现模型知识的精准更新与修正。其构建基础整合了KnowEdit等多个现有知识编辑基准，并利用GPT-4o生成丰富的上下文信息，覆盖知识插入与知识修改两大核心任务。ICE的提出，为评估模型在动态知识适应与纠错能力方面提供了系统化工具，推动了知识编辑领域从静态参数调整向上下文驱动范式的演进。

当前挑战

ICE数据集致力于应对知识编辑领域的核心难题，即如何使大语言模型高效、精准地吸收新知识并修正既有错误，同时保持原有知识的连贯性与一致性。具体挑战体现在模型需在多样化任务——如事实插入、问答修正、幻觉纠正及反事实编辑中，均展现出稳定的泛化能力。在构建过程中，挑战主要集中于上下文的高质量生成与多源数据的有效融合，需确保生成的语境既自然流畅，又能精确引导模型完成知识更新，避免引入噪声或偏差，这对数据构建的严谨性与生成模型的可靠性提出了较高要求。

常用场景

经典使用场景

在知识编辑领域，ICE数据集为评估模型在动态知识更新中的性能提供了标准化基准。该数据集整合了WikiData_recent、ZsRE、WikiBio和WikiData_counterfact四个子集，覆盖了知识插入与修改两大核心任务。研究者通过ICE能够系统测试模型在处理新事实注入、问答修正、幻觉纠正及反事实推理等多维场景下的适应能力，从而推动知识编辑技术向更精准、更鲁棒的方向演进。

衍生相关工作

围绕ICE数据集，学术界已衍生出一系列经典研究工作。其基础架构借鉴了KnowEdit数据集的构建思路，并通过GPT-4o生成上下文，进一步拓展了知识编辑的评估维度。相关成果如《In-Context Editing: Learning Knowledge from Self-Induced Distributions》提出了上下文编辑新范式，启发了后续研究对分布诱导、增量学习等方向的深入探索，形成了知识持续更新领域的技术脉络。

数据集最近研究