Hybrid Graph Benchmark (HGB)

Name: Hybrid Graph Benchmark (HGB)
Creator: 帝国理工学院生物工程系
Published: 2024-02-20 21:43:38
License: 暂无描述

arXiv2024-02-20 更新2024-06-21 收录

下载链接：

https://zehui127.github.io/hybrid-graph-benchmark/

下载链接

链接失效反馈

官方服务：

资源简介：

Hybrid Graph Benchmark (HGB) 是一个包含23个真实世界混合图数据集的综合性基准，涵盖生物学、社交媒体和电子商务等多个领域。这些数据集不仅包含简单的节点对关系，还包含更复杂的节点交互，如超图和层次图结构。HGB的创建旨在为评估和训练图神经网络（GNNs）提供一个全面的框架，特别是在处理复杂图结构时。通过这些数据集，研究者可以探索和验证不同GNN模型在处理高阶图数据时的性能和局限性，从而推动图表示学习领域的进一步发展。

Hybrid Graph Benchmark (HGB) is a comprehensive benchmark comprising 23 real-world hybrid graph datasets spanning multiple domains including biology, social media, and e-commerce. These datasets not only include simple pairwise node relationships but also more complex node interactions such as hypergraph and hierarchical graph structures. The HGB was created to provide a comprehensive framework for evaluating and training graph neural networks (GNNs), particularly when handling complex graph structures. With these datasets, researchers can explore and validate the performance and limitations of diverse GNN models when processing high-order graph data, thus promoting further advancements in the field of graph representation learning.

提供机构：

帝国理工学院生物工程系

创建时间：

2023-06-08

搜集汇总

数据集介绍

构建方式

在复杂图结构建模领域，传统超图和层次图难以全面捕捉现实网络中的多节点交互与层级关系。为此，HGB数据集基于混合图这一统一数学框架构建，该框架允许节点通过简单边、超边及层级关系进行连接。数据集的构建过程涵盖三大领域：从MUSAE社交网络中提取最大团形成超边；在GRAND基因调控网络中依据染色体位置邻近性构建超边；于亚马逊产品网络中利用CLIP图像嵌入聚类生成超边。通过系统化整合23个真实世界网络，HGB实现了对生物、社交媒体和电子商务等多领域复杂关系的统一表征。

特点

HGB数据集的核心特征在于其结构复杂性与领域覆盖广度。该数据集突破了传统图数据集的二元限制，同时包含简单边、超边及潜在层级关系，能够更精确地模拟现实世界中多节点交互的复杂性。其23个子数据集规模各异，平均节点数从数千至数万不等，平均超边度分布在1.3至30.7之间，呈现出丰富的拓扑多样性。特别值得注意的是，数据集在保持结构复杂性的同时，提供了原始节点特征与预处理嵌入两种特征表示，并涵盖节点分类与回归双重任务类型，为图神经网络算法提供了多维度的评估场景。

使用方法

为促进混合图上的算法研究，HGB提供了完整的评估框架与代码库。研究者可通过标准化的数据加载接口获取混合图的节点特征矩阵、超边特征矩阵、关联矩阵及层级关系矩阵。框架内置了七种主流图神经网络模型，包括GCN、GAT等简单图模型及HyperConv等超图模型，并支持自定义模型集成。评估流程采用6:2:2的节点划分比例，通过五重随机种子实验确保结果稳定性。对于大规模图数据，框架提供了HybridGraphSAINT采样器，支持基于节点、边和随机游走的子图采样策略，有效平衡计算效率与结构保持能力。

背景与挑战

背景概述

在复杂网络分析领域，传统图结构难以充分刻画现实世界中超越成对节点的高阶交互关系。为应对这一挑战，帝国理工学院与剑桥大学的研究团队于2023年提出了混合图基准数据集（HGB）。该数据集通过引入混合图这一统一数学框架，系统整合了简单图、超图与层次图的表征能力，覆盖生物学、社交媒体与电子商务等多元领域的23个真实网络。其核心研究目标在于构建标准化的评估体系，以揭示图神经网络在复杂拓扑结构下的真实性能边界，推动高阶图表示学习方法的创新发展。

当前挑战

该数据集致力于解决高阶图表示学习中的两大核心挑战：其一，在领域问题层面，现有超图神经网络在复杂网络中的性能优势尚未得到充分验证，需系统评估其相对于简单图模型在捕获多节点交互关系时的有效性；其二，在构建过程中，需克服真实网络数据异构性带来的整合难题，包括超边构造策略的合理性验证（如基于图像嵌入的聚类阈值选择）、多层次节点关系的统一建模，以及避免简单边与超边之间的信息冗余。这些挑战共同指向了复杂图结构标准化评估框架的缺失问题。

常用场景

经典使用场景

在复杂图结构学习领域，Hybrid Graph Benchmark（HGB）为评估图神经网络模型提供了标准化测试平台。该数据集整合了社交网络、生物信息学和电子商务等多元领域的真实世界图数据，其经典使用场景集中于节点分类与回归任务的性能评测。研究者通过HGB的统一评估框架，能够系统比较简单图神经网络与超图神经网络在复杂交互结构上的表现差异，从而揭示模型在捕获高阶关系时的能力边界。

衍生相关工作

HGB的发布催生了一系列重要的衍生研究。基于其评估框架，研究者提出了混合图采样算法HybridGraphSAINT，有效提升了大规模图训练效率；线性探测图神经网络（LP-GNN）通过融合简单图与超图信息，显著改善了节点预测性能。这些工作深化了对图神经网络信息融合机制的理解，启发了后续关于层次感知图卷积、动态超边建模等方向的研究。HGB已成为复杂图学习领域方法创新与性能比较的基础设施，持续推动着图表示学习理论与应用的发展。

数据集最近研究