ICEWS-WIKI, ICEWS-YAGO
收藏arXiv2024-01-24 更新2024-06-21 收录
下载链接:
https://github.com/IDEAFinAI/Simple-HHEA
下载链接
链接失效反馈官方服务:
资源简介:
本研究提出了两个新的高度异构知识图谱(HHKG)数据集:ICEWS-WIKI和ICEWS-YAGO,旨在更真实地模拟实际的实体对齐(EA)场景。ICEWS-WIKI整合了来自Integrated Crisis Early Warning System(ICEWS)的事件知识图谱与通用知识图谱WIKIDATA,而ICEWS-YAGO则结合了ICEWS与YAGO。这些数据集在规模、结构和重叠率上显著不同,反映了实际应用中知识图谱的异构性。创建过程中,研究者通过严格的统计分析和数据处理,确保数据集保持原始知识图谱的分布特征。这些数据集不仅对EA研究具有重要意义,也适用于跨图推理和时间知识图谱的完成与预测等应用领域,有助于设计更适应实际挑战的EA模型。
This study proposes two novel highly heterogeneous knowledge graph (HHKG) datasets: ICEWS-WIKI and ICEWS-YAGO, which aim to more realistically simulate real-world entity alignment (EA) scenarios. ICEWS-WIKI integrates the event knowledge graph from the Integrated Crisis Early Warning System (ICEWS) with the general-purpose knowledge graph WIKIDATA, while ICEWS-YAGO combines ICEWS with YAGO. These datasets differ significantly in scale, structure, and overlap rate, reflecting the heterogeneity of knowledge graphs in real-world applications. During the creation process, researchers conducted rigorous statistical analysis and data processing to ensure that the datasets retain the distribution characteristics of the original knowledge graphs. These datasets are not only of great significance for EA research, but also applicable to application fields such as cross-graph reasoning, temporal knowledge graph completion and prediction, helping to design EA models that are more adaptable to real-world challenges.
提供机构:
中国科学院计算技术研究所
创建时间:
2023-04-07
搜集汇总
数据集介绍

构建方式
在知识图谱实体对齐研究领域,现有基准数据集常因过度简化现实场景中的异质性而受到局限。为弥合这一差距,ICEWS-WIKI与ICEWS-YAGO数据集的构建采用了高度异构的知识图谱融合策略。该构建过程始于对集成危机预警系统(ICEWS)原始事件数据的预处理,将其转化为包含实体、关系及时序标注的知识图谱结构。随后,通过官方Wikidata API检索并人工筛选出高质量的实体对齐对,确保数据的可靠性。在采样阶段,研究团队摒弃了传统的一对一实体对应假设,采用基于度分布的迭代采样算法,从原始图谱中抽取对齐实体的邻居信息,从而完整保留了源域图谱与目标域图谱在规模、结构密度及实体重叠率等方面的显著差异,使数据集更贴近真实世界知识图谱对齐的复杂情境。
使用方法
该数据集主要用于评估高度异构知识图谱场景下的实体对齐方法性能。研究者可将数据集划分为标准的训练集、验证集与测试集,以监督或半监督学习范式进行模型训练与评估。使用时应重点关注模型对异构信息的适应能力:首先,可利用预训练语言模型编码实体名称信息,作为语义对齐的基础;其次,需设计能够有效处理结构差异的图神经网络或非图神经网络架构,避免在高度异构的邻域信息中引入过多噪声;再者,对于包含时序信息的事实,可集成时序编码器以捕捉时间维度上的对齐线索。评估时,除常规的Hits@k与MRR指标外,建议结合结构相似度等细粒度分析,深入探究模型在不同异质性维度上的表现,从而推动面向实际应用的实体对齐方法设计。
背景与挑战
背景概述
在知识图谱应用蓬勃发展的背景下,实体对齐作为跨图谱数据整合的核心技术,其重要性日益凸显。然而,现有实体对齐数据集普遍存在异质性设置过于简化的问题,难以反映真实场景中知识图谱在规模、结构和实体重叠度等方面的复杂差异。为弥合这一鸿沟,中国科学院计算技术研究所与IDEA研究院等机构的研究团队于2024年共同构建了ICEWS-WIKI与ICEWS-YAGO数据集。这两个数据集深度融合了特定领域的政治事件知识图谱ICEWS与通用知识图谱WIKIDATA、YAGO,旨在模拟高度异质知识图谱对齐的实际挑战。其核心研究问题聚焦于探索在高度异质性条件下实体对齐方法的有效性与局限性,为评估现有方法在真实场景中的泛化能力提供了关键基准,推动了实体对齐研究从理想化设定向实际应用的重要转变。
当前挑战
ICEWS-WIKI与ICEWS-YAGO数据集所针对的实体对齐任务,其核心挑战在于处理高度异质知识图谱间的复杂差异。具体而言,领域问题层面的挑战体现为:当源图谱与目标图谱在规模、密度、结构分布上存在显著差异,且实体重叠率极低时,传统的基于图神经网络的消息传递与聚合机制难以有效捕捉和利用结构信息,导致模型性能急剧下降。在数据集构建过程中,挑战主要源于如何真实保留原始知识图谱的高度异质特性。研究者需摒弃以往数据集中不切实际的1对1实体对应假设,并通过迭代度采样等算法,在构建的子图中维持原始图谱在规模、结构相似性及时间信息覆盖度等方面的巨大差异,从而确保数据集能够精准反映现实应用中知识图谱对齐所面临的严峻考验。
常用场景
经典使用场景
在知识图谱融合领域,ICEWS-WIKI与ICEWS-YAGO数据集为高度异构知识图谱实体对齐研究提供了经典实验平台。该数据集整合了特定领域的政治事件知识图谱与通用百科知识图谱,其核心应用场景在于模拟现实世界中不同来源、不同结构知识图谱间的对齐挑战。研究者通过该数据集能够深入探索在规模差异显著、结构相似度低、实体重叠比例有限的极端异构条件下,各类实体对齐方法的性能边界与适应性。
解决学术问题
该数据集有效解决了传统实体对齐研究中因数据集过度简化而导致的评估偏差问题。传统数据集常假设知识图谱间规模相近、结构相似且实体一一对应,这与实际应用场景存在显著差距。ICEWS-WIKI/YAGO通过引入高度异构特性,迫使研究社区重新审视图神经网络等主流方法在复杂现实条件下的有效性,揭示了消息传递与聚合机制在异构结构中的局限性,推动了对实体对齐本质问题的更深刻理解。
实际应用
在实际应用层面,该数据集直接服务于跨领域知识融合的关键需求。例如在舆情分析系统中,需要将实时政治事件图谱与背景知识库进行对齐,以增强事件理解的深度与广度;在个性化推荐领域,则需融合用户个人知识图谱与通用知识图谱。数据集模拟的领域图谱与通用图谱对齐场景,为智慧政务、国家安全、金融风控等领域的多源知识集成提供了可靠的基准测试环境。
数据集最近研究
最新研究方向
在知识图谱实体对齐领域,ICEWS-WIKI和ICEWS-YAGO数据集的提出标志着研究重心从传统同质化场景转向高度异质化知识图谱的实践对齐。这些数据集整合了事件知识图谱与通用知识图谱,其显著差异体现在规模、结构和重叠实体比例上,突破了以往数据集中简化的1对1假设与结构相似性限制。前沿研究聚焦于探索图神经网络在高度异质化环境下的局限性,特别是消息传递与聚合机制在结构信息利用上的失效问题。热点方向包括设计自适应多信息融合模型,如Simple-HHEA所展示的实体名称、结构与时间信息协同整合策略,以应对实际应用中信息质量多变的挑战。这一进展不仅推动了实体对齐方法在可适应性与效率上的革新,也为跨领域知识集成与时空推理等下游任务提供了更坚实的理论基础。
相关研究论文
- 1Toward Practical Entity Alignment Method Design: Insights from New Highly Heterogeneous Knowledge Graph Datasets中国科学院计算技术研究所 · 2024年
以上内容由遇见数据集搜集并总结生成



