UniKG

Name: UniKG
Creator: 南京理工大学
Published: 2023-09-11 14:56:42
License: 暂无描述

arXiv2023-09-11 更新2024-06-21 收录

下载链接：

https://github.com/Yide-Qiu/UniKG

下载链接

链接失效反馈

官方服务：

资源简介：

UniKG是由南京理工大学构建的大型异构图基准数据集，源自Wikidata，旨在促进知识挖掘和异构图表示学习。该数据集包含超过7700万具有多属性的实体和2000种多样化的关联类型，显著超越现有异构图数据集的规模。创建过程中，采用了语义对齐策略和创新的插件式各向异性传播模块(APM)，以实现大规模异构图中的高效信息传播和多属性关联的自适应挖掘。UniKG的应用领域广泛，旨在解决大规模异构图学习和知识提取的问题，特别是在推荐系统、恶意软件检测系统和医疗健康系统等领域。

UniKG is a large heterogeneous graph benchmark dataset constructed by Nanjing University of Science and Technology, sourced from Wikidata, aiming to facilitate knowledge mining and heterogeneous graph representation learning. This dataset contains over 77 million entities with multiple attributes and 2000 diverse association types, significantly exceeding the scale of existing heterogeneous graph datasets. During its development, semantic alignment strategies and an innovative pluggable anisotropic propagation module (APM) were adopted to achieve efficient information propagation in large-scale heterogeneous graphs and adaptive mining of multi-attribute associations. UniKG has a wide range of application scenarios, aiming to address the challenges of large-scale heterogeneous graph learning and knowledge extraction, particularly in fields such as recommendation systems, malware detection systems, and healthcare systems.

提供机构：

南京理工大学

创建时间：

2023-09-11

搜集汇总

数据集介绍

构建方式

在异构信息网络研究领域，大规模知识图谱的构建对于推动表示学习至关重要。UniKG数据集从Wikidata知识库中提取并构建，其构建过程采用了精细的策略以确保数据的语义完整性与规模性。首先，通过设计实体提取策略，自动筛选出具有完整属性（如标识符、描述、标签及声明）的英文实体，并过滤缺乏语义的外部标识关系，从而获得了超过7700万个节点和5.64亿条有向边。随后，通过语义对齐策略，将每个实体的特征描述重组为统一结构，并利用预训练语言模型Deberta将其投影到公共嵌入空间，生成节点嵌入。最后，通过半自动标注策略，对冗余的实体标签进行聚类和手动校验，将74,666个原始标签归纳为2000个具有物理意义的高级类别，并为所有边标注了2082种关系类型，从而构建了一个规模远超现有数据集的复杂异构图。

使用方法

UniKG数据集的使用方法主要围绕异构图表示学习任务展开，尤其适用于节点分类等下游应用。研究人员可以基于该数据集构建和评估大规模异构图学习模型，例如通过嵌入各向异性传播模块（APM）到大规模同构图方法中，形成如R-SAGN等基线模型。在实验中，数据集通常被随机划分为训练、验证和测试集（比例为8:1:1），以进行半监督多标签节点分类任务的评估。此外，UniKG的知识可迁移至其他领域，如推荐系统，通过检索相似嵌入作为更富表达力的初始表示，以提升模型性能。使用过程中需注意避免引入额外技巧以确保公平性，并参考原始超参数设置，例如嵌入维度为128、隐藏维度为256，在单GPU环境下进行训练。

背景与挑战

背景概述

在现实世界中，不规则数据通常以包含多种节点和边类型的异质图形式组织。为了从这些数据中挖掘有效知识，大规模百科全书式的异质图数据集及其对应的学习方法至关重要，但此前尚未得到充分探索。南京理工大学的研究团队于2023年构建了名为UniKG的大规模异质图基准数据集，该数据集源自Wikidata，旨在促进知识挖掘与异质图表示学习。UniKG包含超过7700万个多属性实体和2000种多样关联类型，其规模显著超越了现有异质图数据集。该数据集的创建不仅解决了异质图领域缺乏大规模通用领域数据的问题，还为推荐系统、恶意软件检测及医疗健康等多个下游任务提供了强有力的支持，推动了异质图表示学习方法的进一步发展。

当前挑战

UniKG数据集面临的挑战主要体现在两个方面：其一，在领域问题层面，异质图表示学习需应对多属性实体间的复杂语义关联与拓扑异质性，传统方法在处理大规模异质图时，常因内存开销过大或元路径数量爆炸式增长而失效，难以在超大规模感受野中实现高效的信息传播与关联挖掘。其二，在构建过程中，从Wikidata等知识图谱中提取并组织数十亿实体数据极具挑战，需设计精细的实体过滤与语义对齐策略，以消除冗余标注、统一实体描述结构，并确保多类型边的准确注释，这些步骤均需大量计算资源与人工校验，以保障数据质量与一致性。

常用场景

经典使用场景

在异质图表示学习领域，UniKG数据集最经典的使用场景是作为大规模、百科全书式异质图基准，用于评估和推动图神经网络模型在超大规模异质结构上的表征能力。该数据集通过整合维基数据中超过7700万个多属性实体和2000余种关联类型，构建了一个前所未有的复杂语义网络，为研究者提供了探索深层图拓扑结构与多模态语义关联的标准化实验平台。其核心价值在于解决了以往异质图数据集规模有限、领域特定的瓶颈，使得模型能够在接近真实世界复杂度的图结构上进行训练与验证，尤其适用于需要处理海量节点与多样化关系类型的学术探索。

解决学术问题

UniKG数据集主要解决了异质图学习领域长期存在的两大核心学术问题：一是缺乏能够支撑深度模型训练的大规模、通用领域异质图基准，以往数据集往往局限于特定领域且规模较小，难以验证模型在复杂真实场景下的泛化能力；二是传统异质图学习方法在超大规模图上存在内存开销过大或元路径组合爆炸的困境。该数据集通过引入语义对齐策略与各向异性传播模块，为大规模异质图的高效信息传播与多跳聚合提供了可行范式，显著推动了异质图表示学习在可扩展性与语义感知方面的理论进展，并为节点分类、链接预测等基础任务设立了新的性能标杆。

实际应用

UniKG数据集的实际应用价值主要体现在其能够为下游任务提供丰富的结构化先验知识。例如，在推荐系统领域，该数据集所学习到的实体嵌入可以作为更富表达力的初始特征，增强用户-物品交互建模的语义深度，实验表明其在Yelp等公开数据集上能够显著提升推荐精度。此外，其涵盖的跨领域实体与关系网络也为知识图谱补全、智能问答系统以及跨模态信息检索等应用提供了坚实的知识底座，使得机器学习模型能够利用大规模异质图中蕴含的常识与逻辑关联，提升在开放域任务中的推理与泛化性能。

数据集最近研究