合成图数据集

Name: 合成图数据集
Creator: 加泰罗尼亚理工大学计算机架构系
Published: 2022-05-27 19:12:50
License: 暂无描述

arXiv2022-05-27 更新2024-06-21 收录

下载链接：

https://github.com/BNN-UPC/graphlaxy

下载链接

链接失效反馈

官方服务：

资源简介：

合成图数据集是由加泰罗尼亚理工大学计算机架构系创建的，旨在通过均匀分布的图数据集来减少选择偏差。该数据集包含10000个图，通过优化RMAT随机图生成器的参数分布来创建，确保在关键图度量上的均匀分布。数据集主要用于基准测试图处理技术，如图形神经网络模型的准确性和图处理加速框架的速度提升，特别适用于解决机器学习中的偏差问题。

This synthetic graph dataset was created by the Department of Computer Architecture at Universitat Politècnica de Catalunya (UPC). Its core objective is to mitigate selection bias by providing uniformly distributed graph datasets. The dataset comprises 10,000 graphs generated by optimizing the parameter distribution of the RMAT random graph generator, which guarantees uniform distribution across key graph metrics. Primarily, this dataset is utilized for benchmarking graph processing technologies, such as evaluating the accuracy of graph neural network models and testing the speedup of graph processing acceleration frameworks, and it is particularly suitable for addressing bias issues in machine learning.

提供机构：

加泰罗尼亚理工大学计算机架构系

创建时间：

2022-05-27

搜集汇总

数据集介绍

构建方式

在复杂网络链路预测研究领域，构建具有可控结构的合成图数据集对于评估算法性能至关重要。该数据集通过一种精心设计的随机图生成方法构建，将节点分为结构节点和桥节点两类。结构节点被分配到多个独立子结构中，每个子结构内部遵循特定连接规则，如全连接团、二维晶格或带对角线的晶格，从而嵌入微观尺度的网络模体。桥节点则以固定概率随机连接到结构节点，引入随机连接成分。这种分层生成机制使得网络同时具备微观模体与中观社区结构，并通过调整子结构数量、尺寸及桥节点比例等参数，实现对网络拓扑特性的系统控制。

特点

该合成图数据集的核心特点在于其结构可解析性与理论可预测性。数据集融合了复杂网络中普遍存在的微观模体与中观社区双重结构，通过参数化生成过程实现对网络特征的精确调控。尤为重要的是，研究者推导出了在该类合成图上链路预测性能的理论上界，为评估任意算法的表现提供了绝对基准。这一理论界限使得我们能够区分算法性能变化是源于任务本身的可预测性差异，还是算法对特定结构的捕捉能力不同。数据集生成的网络既保留了真实网络的典型结构特征，又具备足够的简洁性以支持理论分析，从而在实证复杂性与模型可解性之间取得了平衡。

使用方法

该数据集主要用于链路预测算法的基准测试与比较研究。使用者可通过开源代码生成具有不同参数组合的合成图，模拟多样化的网络结构场景。在典型使用流程中，首先从完整生成的网络中随机移除一定比例（如10%）的边作为待预测的缺失边，剩余边作为观测数据。随后，应用各类链路预测算法（如基于相似性的方法、随机块模型、Node2Vec、GraphSage等）进行预测，并以曲线下面积等指标评估性能。通过将算法性能与理论预测上界对比，研究者能够深入分析不同方法对微观模体或中观社区等特定结构的依赖程度，从而理解算法优势与局限，并为特定网络结构选择或设计最合适的预测方法。

背景与挑战

背景概述

合成图数据集由悉尼大学数学与统计学院的Alexey Vlaskin与Eduardo G. Altmann于2024年提出，旨在为复杂网络中的链路预测任务构建标准化基准。该数据集通过生成融合微观模体与中观社区结构的随机图，系统探究算法效率与网络拓扑间的相互作用。其核心研究问题聚焦于评估不同链路预测方法在可控结构环境下的性能边界，并推导理论预测上限，从而深化对算法机制的理解。这一工作推动了链路预测领域从经验性比较向理论化分析的范式转变，为后续研究提供了可复现的评估框架与开源生成工具。

当前挑战

合成图数据集致力于解决链路预测领域内算法评估缺乏理论基准的挑战，其核心在于量化不同网络结构对预测性能的影响。构建过程中面临两大挑战：一是设计兼具真实网络特性与理论可解性的图模型，需平衡微观模体与中观社区的复杂性；二是推导理想算法的性能上界，要求模型参数化程度足以支持解析计算，同时保持结构多样性以覆盖实际应用场景。这些挑战使得数据集的生成机制需在结构逼真性与数学可处理性间取得微妙平衡。

常用场景

经典使用场景

在复杂网络与机器学习领域，链路预测作为核心任务之一，其算法评估长期依赖经验网络，难以剥离网络结构特异性对性能的影响。合成图数据集通过精心设计的随机图模型，融合了微观尺度模体与介观尺度社区这两种普遍存在的网络结构，为链路预测方法提供了可控且可解释的基准测试平台。该数据集最经典的使用场景在于系统性地评估不同链路预测算法（如随机游走嵌入方法、图神经网络及随机块模型）在不同结构主导的网络中的表现差异，从而揭示算法性能与底层网络拓扑之间的内在关联。

衍生相关工作

该数据集的提出，启发了后续一系列围绕可解释基准测试与算法-结构关联性的研究工作。其核心思想——通过可控合成数据理解算法机制——被延伸至社区检测、节点分类等其他图学习任务中。相关工作开始探索更复杂的网络生成模型，以涵盖度分布异质性、有向模体、层次结构等更丰富的真实网络特征。同时，该工作强化了“没有单一最优算法”的认知，促使学界发展能够自适应识别并融合多种网络结构的混合预测模型或元学习框架。

数据集最近研究