EMERGE
收藏arXiv2025-07-04 更新2025-07-09 收录
下载链接:
https://github.com/klimzaporojets/emerge
下载链接
链接失效反馈官方服务:
资源简介:
EMERGE是一个自动构建的基准数据集,用于将文本来源中的新知识与知识图谱(KG)中的变化进行对齐。具体来说,我们将维基数据KG(Vrandeˇci´c和Krötzsch,2014)中的演变更新与反映相同时期新兴知识的维基百科文本段落进行关联。该数据集包括376K个维基百科段落,与从2019年到2025年维基数据的10个不同快照中的总计1.25M个KG编辑相匹配。我们的实验结果突出了基于新兴文本知识更新KG快照的挑战,并将该数据集定位为未来研究的宝贵基准。我们还将公开发布我们的数据集和模型实现。
提供机构:
奥胡斯大学
创建时间:
2025-07-04
搜集汇总
数据集介绍

构建方式
EMERGE数据集通过自动构建的方式,将维基百科的文本段落与维基数据知识图谱(Wikidata KG)的编辑操作进行对齐。具体流程包括:下载维基百科和维基数据的历史修订日志,生成特定时间点的知识图谱快照,并通过每周增量(delta)的方式记录知识图谱的变化。每个增量窗口包含文本段落及其对应的知识图谱更新操作。随后,通过远监督方法将新引入的维基百科段落与知识图谱增量中的三元组进行对齐,并利用大语言模型(如Llama-3.1-8B)过滤掉文本内容不支持的三元组对,确保数据质量。
特点
EMERGE数据集的特点在于其全面覆盖了知识图谱更新的五种操作(TKGU操作),包括新增现有实体间的三元组(E-Triples)、新增涉及新实体的三元组(EE-Triples)、将新实体链接到现有知识图谱的三元组(EE-KG-Triples)、废弃过时的三元组(D-Triples)以及检测现有三元组(X-Triples)。数据集包含10个维基数据快照,时间跨度为2019年至2025年,涵盖37.6万条维基百科段落和125万条知识图谱编辑操作,具有高度的时效性和可扩展性。
使用方法
EMERGE数据集可用于评估模型在动态知识图谱更新任务中的性能。使用方法包括:加载特定时间点的知识图谱快照和对应的文本段落增量,根据定义的TKGU操作生成预测,并通过召回率或完整性分数评估模型性能。用户还可利用提供的代码扩展数据集,添加新的维基数据和维基百科快照,以测试模型在持续演化知识上的适应性。实验时需注意模型对知识图谱结构和内容的利用能力,尤其是在处理新实体链接和三元组废弃任务时的表现。
背景与挑战
背景概述
EMERGE数据集由Aarhus University、Amsterdam UMC、Sapienza University of Rome和University of Amsterdam的研究团队于2025年提出,旨在解决知识图谱(KG)随时间演进而更新的核心问题。该数据集通过将维基百科文本段落与Wikidata知识图谱的快照对齐,提供了376K维基百科段落和1.25M KG编辑操作,覆盖了2019年至2025年的10个不同时间点。EMERGE的创建填补了传统信息抽取数据集在动态知识更新方面的空白,为知识图谱的持续更新提供了重要基准。
当前挑战
EMERGE数据集面临的主要挑战包括:1) 领域问题挑战:传统信息抽取方法难以处理知识图谱的动态更新,尤其是在处理新兴实体(EE-Triples)和将新兴实体链接到现有图谱(EE-KG-Triples)时表现不佳;2) 构建过程挑战:数据集的构建需要精确对齐维基百科文本与Wikidata的编辑操作,同时确保文本内容支持相应的知识图谱更新操作。此外,现有模型在识别需要废弃的三元组(D-Triples)方面也存在显著不足。
常用场景
经典使用场景
EMERGE数据集在知识图谱动态更新领域具有经典应用场景。该数据集通过将维基百科文本段落与维基数据知识图谱的编辑操作对齐,为研究人员提供了评估模型在知识图谱动态更新任务中性能的基准平台。典型使用场景包括:基于新兴文本知识自动识别知识图谱所需的更新操作(如新增实体、建立关系、废弃过时三元组等),以及评估模型在不同时间快照下处理知识演化的能力。
解决学术问题
EMERGE有效解决了知识图谱研究中的关键学术问题。传统信息抽取方法仅关注从文本中独立提取结构化知识,而该数据集首次系统性地建模了知识图谱随时间演化的动态特性。通过定义五类文本驱动的知识图谱更新操作(X/E/EE/EE-KG/D-Triples),它填补了现有基准在评估知识整合、实体链接和过时知识淘汰等复合能力上的空白,为知识图谱的终身学习研究提供了量化标准。
衍生相关工作
该数据集已衍生出多个重要研究方向。基于EMERGE的评估揭示了现有信息抽取模型在知识演化处理上的局限性,推动了如ReLiK架构的改进和EDC+等LLM方法的创新。相关研究进一步扩展到跨模态知识更新、时序知识推理等领域,催生出TemporalWiki等时序知识基准,形成了知识图谱动态维护的研究体系。
以上内容由遇见数据集搜集并总结生成



