EventEA
收藏arXiv2022-11-05 更新2024-06-21 收录
下载链接:
https://github.com/nju-websoft/EventEA
下载链接
链接失效反馈官方服务:
资源简介:
EventEA是一个针对事件中心知识图谱的实体对齐数据集,由南京大学软件新技术国家重点实验室创建。该数据集包含20000个事件实体对齐对,主要从EventKG、DBpedia和Wikidata中提取,具有较少的同构结构和更多的异构属性值。EventEA旨在评估嵌入式实体对齐方法在处理困难实体对齐设置时的鲁棒性,特别适用于评估结构化方法和属性增强方法。数据集的应用领域包括知识图谱的跨语言和跨领域实体对齐,旨在解决现有数据集偏差和评估挑战。
EventEA is an entity alignment dataset for event-centric knowledge graphs, created by the State Key Laboratory for Novel Software Technology at Nanjing University. This dataset contains 20,000 event entity alignment pairs, mainly extracted from EventKG, DBpedia and Wikidata, and features fewer isomorphic structures and more heterogeneous attribute values. EventEA aims to evaluate the robustness of embedding-based entity alignment methods when handling challenging entity alignment scenarios, and is particularly suitable for assessing structured and attribute-enhanced alignment methods. The application scope of this dataset covers cross-lingual and cross-domain entity alignment on knowledge graphs, and it is designed to address existing dataset biases and evaluation challenges.
提供机构:
南京大学软件新技术国家重点实验室
创建时间:
2022-11-05
搜集汇总
数据集介绍

构建方式
EventEA数据集的构建采用了基于事件中心的知识图谱,旨在解决现有数据集中存在的结构同构性和属性异质性不足的问题。数据集主要来源于EventKG、DBpedia和Wikidata,通过识别事件实体、补充位置实体和三元组,构建了一个具有挑战性的实体对齐数据集。
特点
EventEA数据集具有以下特点:1)事件实体对齐更加困难,因为事件实体具有多维度信息,如时间、地点、参与者等;2)事件实体之间的关联稀疏,导致事件知识图谱的结构异构性更强;3)事件实体的名称更加复杂,相同的实体可能有很大差异;4)事件实体通常具有丰富的属性,更适合评估属性增强方法是否真正捕捉到实体属性和名称的语义相似性。
使用方法
EventEA数据集的使用方法如下:1)下载数据集和源代码;2)使用EventKG、DBpedia和Wikidata中的事件实体构建源和目标知识图谱;3)通过事件实体的映射和跨语言链接获取事件实体对齐;4)选择具有挑战性的实体对齐,例如去除名称相似度高的对齐对;5)补充位置实体和三元组,丰富数据集;6)使用事件中心知识图谱进行实体对齐任务的评价,评估结构基础方法和属性增强方法的性能;7)使用时间感知字面量编码器(TAE)等方法进行实体对齐,并评估其性能。
背景与挑战
背景概述
实体对齐(Entity Alignment)是知识图谱(Knowledge Graphs, KGs)领域的一个重要研究课题,旨在识别不同KG中指向同一现实世界对象的相同实体。近年来,基于嵌入的实体对齐技术因其能够解决不同KG中符号异构性问题而备受关注。然而,现有数据集存在一些偏差,这些偏差有利于嵌入技术,导致评估结果不够公正。为了解决这一问题,研究人员构建了EventEA数据集,这是一个基于事件中心KGs的新数据集,具有异构的关系和属性。该数据集的构建旨在提供一个更具有挑战性的评估环境,以促进实体对齐技术的进一步发展。
当前挑战
EventEA数据集的挑战主要来自于事件中心KGs的特性。首先,事件KGs的关系稀疏,导致不同事件KGs的图结构不太同构,这对基于结构的实体对齐方法提出了更高的要求。其次,事件的名称更加复杂,相同事件的名称可能存在很大差异,这使得通过名称匹配进行实体对齐变得更加困难。此外,事件通常具有丰富的属性,属性的异质性也更强,这对属性增强方法提出了更高的挑战。为了应对这些挑战,研究人员提出了一种时间感知文本编码器,该编码器旨在强调时间戳在事件属性值中的重要性,以帮助嵌入更好地捕捉事件的语义相似性。
常用场景
经典使用场景
EventEA数据集主要用于评估和测试基于嵌入的实体对齐方法在事件中心知识图谱中的性能。该数据集由具有异构关系和属性的事件中心知识图谱组成,旨在解决现有数据集中存在的同构图结构和属性三元组异构性不足的问题。通过在EventEA上进行实验,研究者可以评估现有方法的鲁棒性和有效性,并发现现有方法在面对较少同构子图结构和属性值异构性时表现不佳。
解决学术问题
EventEA数据集解决了实体对齐任务中存在的两个主要问题:一是现有数据集中知识图谱的同构结构问题,这可能导致基于结构的方法在高性能的假象下表现不佳;二是现有数据集中属性和文字的异构性不足,使得基于属性增强的方法过度依赖实体名称等特征。EventEA通过引入异构的事件中心知识图谱,为实体对齐研究提供了一个更加真实和具有挑战性的评估平台,有助于推动实体对齐领域的研究进展。
衍生相关工作
EventEA数据集的提出引发了实体对齐领域的一系列相关研究,包括但不限于:1)针对事件中心知识图谱的实体对齐方法研究,如时间感知文字编码器(TAE)等;2)针对异构知识图谱的实体对齐方法研究,以解决现有方法在面对异构数据时的性能问题;3)针对实体对齐任务的评估指标和协议研究,以更好地评估实体对齐方法的有效性和鲁棒性。EventEA数据集为这些研究提供了重要的数据和实验平台,有助于推动实体对齐领域的技术进步。
以上内容由遇见数据集搜集并总结生成



