ULTRAEDITBENCH

Name: ULTRAEDITBENCH
Creator: 香港科技大学（广州）
Published: 2025-05-21 01:59:04
License: 暂无描述

arXiv2025-05-21 更新2025-05-22 收录

下载链接：

https://github.com/XiaojieGu/UltraEdit

下载链接

链接失效反馈

官方服务：

资源简介：

ULTRAEDITBENCH是目前最大的模型编辑数据集，包含超过200万个事实编辑对，旨在推动大规模模型编辑研究。数据集由Wikidata三元组构建，每个编辑对包含一个编辑查询和相应的地面真实输出，用于评估模型编辑的性能。该数据集的构建有助于研究人员测试和评估模型编辑方法的有效性和可扩展性，特别是在大规模和长期的模型编辑场景中。

ULTRAEDITBENCH is currently the largest model editing dataset, encompassing over 2 million factual editing pairs and aiming to advance large-scale model editing research. This dataset is constructed from Wikidata triples, where each editing pair consists of an editing query and its corresponding ground-truth output, used to evaluate the performance of model editing methods. The development of this dataset enables researchers to test and assess the effectiveness and scalability of model editing approaches, especially in large-scale and long-term model editing scenarios.

提供机构：

香港科技大学（广州）

创建时间：

2025-05-21

原始信息汇总

UltraEdit 数据集概述

📌 基本信息

项目名称: UltraEdit: Training-, Subject-, and Memory-Free Lifelong Editing in Large Language Models
论文链接: arXiv:2505.14679
发布时间: 2025年5月

📂 数据准备

原始数据下载:
- 从 Google Drive 下载文件，存放至 UltraEdit/data/raw。
UltraEditBench 数据集:
- 从 Hugging Face 下载并保存至 UltraEdit/data/raw/ultraeditbench。
模型权重路径:
- 在 UltraEdit/config/model/model.yaml 中设置 name_or_path 字段。

🛠 预计算协方差矩阵

提供以下模型的预计算协方差矩阵：

⚙️ 环境配置

Python 版本: 3.10
依赖安装: bash conda create -n ultraedit python=3.10 conda activate ultraedit pip install torch==2.3.0+cu121 --index-url https://download.pytorch.org/whl/cu121 pip install -r requirements.txt

🏃 运行实验

主实验命令: bash sh run.sh
示例脚本参数: bash python main.py dataset=zsre model=mistral-7b editor=ultraedit num_seq=200 editor.cache_dir=cache dataset.batch_size=10 dataset.n_edits=100 model.edit_modules="[model.layers.29.mlp.down_proj, model.layers.30.mlp.down_proj]"

📜 引用

bibtex @misc{Gu2025UltraEdit, title={UltraEdit: Training-, Subject-, and Memory-Free Lifelong Editing in Large Language Models}, author={Xiaojie Gu and Guangxu Chen and Jungang Li and Jia-Chen Gu and Xuming Hu and Kai Zhang}, year={2025}, eprint={2505.14679}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2505.14679}, }

搜集汇总

数据集介绍

构建方式

ULTRAEDITBENCH数据集的构建基于Wikidata5M知识库中的实体-关系-对象三元组，通过GPT-4omini模型在零样本设置下生成与主题和关系对应的事实性问题。为确保数据质量，研究团队对部分样本进行了随机抽查，验证了事实准确性、语言流畅性以及问题与答案的对齐性。数据集包含超过200万对编辑实例，每个实例均包含原始问题、其语义等价变体及无关问题，从而全面评估模型编辑的精确性、泛化性和特异性。

特点

ULTRAEDITBENCH是目前模型编辑领域规模最大的数据集，其核心特点包括：1) 覆盖广泛的知识领域，包含200万对编辑实例；2) 通过语义等价变体和无关问题设计，支持对模型编辑效果的全面评估；3) 采用自动化数据流水线构建，具有良好的可扩展性；4) 特别关注实际应用场景，支持超大规模（百万级）连续编辑的评估。这些特点使其成为评估模型在终身学习环境下知识更新能力的理想基准。

使用方法

使用ULTRAEDITBENCH进行模型评估时，研究人员可通过以下步骤展开工作：首先加载预处理的数据集，其中已明确区分编辑实例、等价实例和无关实例；然后按照标准评估协议，依次测试模型在编辑准确性（Efficacy）、泛化能力（Generalization）和特异性（Specificity）三个维度的表现；对于大规模实验，可利用数据集的分片特性进行分布式计算。此外，该数据集特别支持对超长序列编辑（如100万次连续编辑）的稳定性测试，为终身学习研究提供了重要工具。

背景与挑战

背景概述

ULTRAEDITBENCH数据集由香港科技大学（广州）等机构的研究团队于2025年提出，是目前模型编辑领域规模最大的基准测试，包含超过200万组事实编辑对。该数据集基于Wikidata知识库构建，旨在评估大语言模型在终身学习场景下的知识更新能力。其核心研究问题聚焦于解决传统模型编辑方法在超大规模、高频次知识更新时出现的编辑崩溃现象，通过自包含的线性代数运算实现快速参数调整，显著提升了编辑速度并降低了显存消耗。该数据集通过标准化评估框架推动了模型编辑技术在动态知识更新方向的发展，为实际应用场景中的持续学习提供了重要基准。

当前挑战

ULTRAEDITBENCH面临的挑战主要体现在两个维度：在领域问题层面，需解决传统模型编辑方法难以应对的编辑稳定性衰减问题，即在超万次连续编辑后仍保持高准确率；同时需平衡知识更新的特异性与泛化性，避免对模型原始能力产生干扰。在构建过程中，挑战包括从非结构化Wikidata三元组生成语义一致的问答对，确保编辑实例、等效实例和无关实例的三元组逻辑关联，以及处理知识库中实体关系的动态演化带来的分布偏移问题。此外，数据质量控制需要克服自动生成问答对的事实准确性验证难题，这对构建超大规模编辑基准提出了严峻考验。

常用场景

经典使用场景

ULTRAEDITBENCH数据集在大型语言模型（LLM）的持续知识编辑研究中扮演了关键角色。该数据集通过提供超过200万条事实编辑对，支持对模型在超大规模编辑场景下的稳定性、泛化能力和特异性进行系统性评估。其经典使用场景包括验证模型编辑方法在长期知识更新中的表现，例如评估编辑后的模型在保持原有知识的同时，能否准确响应新注入的事实查询及其语义变体。

解决学术问题

该数据集解决了模型编辑领域的两大核心问题：一是突破了传统数据集规模限制，使得研究超百万次编辑对模型行为的影响成为可能；二是通过结构化设计（编辑实例、等效实例、无关实例）支持对编辑效果的细粒度量化，包括知识注入的精确性（Efficacy）、语义泛化能力（Generalization）及无关知识保留度（Specificity）。其构建方法为领域提供了首个可扩展的终身编辑评估框架，推动了从单次编辑到持续知识演进的范式转变。

衍生相关工作

该数据集已衍生出三类重要研究：一是编辑稳定性优化方法（如对抗Edit Collapse现象的终身归一化策略），二是基于其构建的评估框架被扩展至多模态编辑（MQuAKE-remastered）和结构化知识编辑（StruEdit），三是催生了参数高效编辑技术（如Basis-Level Representation Fine-tuning）。相关成果在ACL、ICLR等会议形成系列工作，推动了模型编辑从实验室方法向工业级解决方案的转化。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集