UNIEDIT
收藏arXiv2025-05-18 更新2025-05-21 收录
下载链接:
http://arxiv.org/abs/2505.12345v1
下载链接
链接失效反馈官方服务:
资源简介:
UNIEDIT是一个统一的知识编辑基准,旨在评估和提升大型语言模型在开放域知识中的编辑能力和泛化鲁棒性。该数据集由维基数据构建,涵盖了25个常见领域的知识,并使用邻域多跳链采样算法(NMCS)来生成编辑样例,从而确保知识领域的全面覆盖。数据集样本由知识子图转换为自然语言文本,保证了语法准确性和句法多样性。UNIEDIT是第一个开放域知识编辑基准,旨在全面模拟真实世界中的各种知识编辑挑战。
UNIEDIT is a unified knowledge editing benchmark developed to evaluate and improve the editing capabilities and generalization robustness of large language models (LLMs) in open-domain knowledge. This benchmark is constructed from Wikidata, covers knowledge spanning 25 common domains, and utilizes the Neighborhood Multi-hop Chain Sampling (NMCS) algorithm to generate editing examples, ensuring comprehensive coverage of knowledge domains. Dataset samples are derived from knowledge subgraphs and converted into natural language texts, ensuring both grammatical accuracy and syntactic diversity. As the first open-domain knowledge editing benchmark, UNIEDIT is designed to comprehensively simulate diverse knowledge editing challenges encountered in real-world scenarios.
提供机构:
华东师范大学, 上海, 中国; 阿里巴巴集团, 杭州, 中国; Exacity Inc., 上海, 中国; 合肥工业大学, 合肥, 中国
创建时间:
2025-05-18
搜集汇总
数据集介绍

构建方式
UNIEDIT数据集的构建基于开放领域知识图谱Wikidata,通过精心设计的流程确保数据的高质量和广泛覆盖。首先,从Wikidata中筛选出29.9M实体和2.4K属性,经过数据清洗和领域分类,确保涵盖25个不同领域的知识。随后,采用Neighborhood Multi-hop Chain Sampling (NMCS)算法,从知识图谱中采样多跳推理链,生成编辑样本及其相关的泛化性和局部性样本。最后,利用专有大语言模型将采样的知识子图转换为自然语言文本,确保语法准确性和句法多样性。
特点
UNIEDIT数据集的特点在于其开放领域的广泛覆盖和多样化的评估标准。数据集包含317K条目,每个条目包括编辑样本、泛化性样本和局部性样本,覆盖自然科学、人文科学、社会科学、应用科学和跨学科研究五大领域。通过NMCS算法,数据集统一并扩展了多种评估标准,如多跳推理、关系反转和实体别名等,从而全面评估大语言模型的知识编辑能力。此外,数据集通过动态调整采样权重,确保知识领域的平衡性和多样性。
使用方法
UNIEDIT数据集的使用方法主要包括三个步骤:首先,用户可以通过数据集提供的编辑样本对大语言模型进行知识编辑,验证模型的可靠性。其次,利用泛化性样本评估模型在相关上下文中的知识应用能力,如多跳推理和关系反转。最后,通过局部性样本测试模型在无关上下文中的知识保留能力。数据集还支持多种编辑方法的评估,包括参数修改和外部模块策略,用户可以根据实验需求选择合适的评估标准和领域进行测试。
背景与挑战
背景概述
UNIEDIT数据集由华东师范大学、阿里巴巴集团等机构的研究团队于2025年提出,旨在解决大语言模型(LLMs)知识编辑领域的核心挑战。该数据集基于开放域知识图谱构建,覆盖25个学科领域的29.9M实体和2,500种关系,通过创新的邻域多跳链采样(NMCS)算法实现了对知识编辑泛化性和局部性的全面评估。作为首个开放域知识编辑基准,UNIEDIT突破了传统数据集局限于狭窄知识领域的瓶颈,为评估模型在复杂语义场景下的知识更新能力提供了标准化测试平台,显著推动了可编辑AI系统的研究进程。
当前挑战
UNIEDIT面临双重挑战:在领域问题层面,需解决开放域知识编辑中存在的语义泛化难题,包括多跳推理、关系反转等复杂场景下的知识一致性维护;在构建过程层面,需克服跨学科实体对齐、知识子图采样偏差等工程技术挑战。具体表现为:1)编辑样本需同时满足25个学科领域的知识表示一致性;2)NMCS算法需平衡多跳链采样效率与语义完整性;3)从Wikidata到自然语言文本的转换需保持语法准确性和逻辑连贯性。这些挑战使得UNIEDIT成为当前最具复杂性的知识编辑评估基准。
常用场景
经典使用场景
UNIEDIT数据集作为大型语言模型(LLM)知识编辑的统一基准,广泛应用于评估模型在开放领域知识中的编辑能力。该数据集通过覆盖25个不同领域的知识图谱,构建了多样化的编辑样本,支持对模型编辑效果的全面测试。其经典使用场景包括模型编辑方法的性能评估、知识更新的有效性验证以及编辑后模型的泛化能力测试。
衍生相关工作
UNIEDIT数据集已经衍生出多个重要的相关研究工作。基于该数据集,研究者开发了多种新型编辑方法,如基于检索增强的持续提示学习方法RECIPE。数据集还启发了对多语言知识编辑的探索,如跨语言编辑框架MEMLA。此外,UNIEDIT的评估方法被扩展到多模态领域,推动了视觉语言模型编辑技术VisEdit的发展。这些工作共同推动了LLM知识编辑领域的前沿进展。
数据集最近研究
最新研究方向
近年来,UNIEDIT数据集在大型语言模型(LLM)知识编辑领域引起了广泛关注。该数据集通过引入开放域知识图谱,构建了一个统一的基准测试平台,旨在全面评估模型编辑的可靠性和泛化鲁棒性。研究热点主要集中在多跳推理、关系反转和实体别名等复杂编辑场景的评估上。UNIEDIT的推出为模型编辑技术在医疗、金融等高需求行业的应用提供了重要支持,同时也揭示了现有编辑方法在开放域知识处理上的局限性,为未来研究方向提供了宝贵洞见。
相关研究论文
- 1UniEdit: A Unified Knowledge Editing Benchmark for Large Language Models华东师范大学, 上海, 中国; 阿里巴巴集团, 杭州, 中国; Exacity Inc., 上海, 中国; 合肥工业大学, 合肥, 中国 · 2025年
以上内容由遇见数据集搜集并总结生成



