Graph Alignment Datasets
收藏arXiv2025-05-19 更新2025-05-21 收录
下载链接:
http://arxiv.org/abs/2505.13087v1
下载链接
链接失效反馈官方服务:
资源简介:
图对齐数据集是一种新的基准测试数据集,旨在评估图神经网络的结构分析能力。该数据集通过合成随机图和真实世界图数据集生成,通过将两个无标签图对齐以最大化重叠边来扩展图同构问题。数据集的创建允许生成具有可控难度级别的数据集,从而可以进行更微妙的评估。此外,作者还展示了图对齐任务在无监督GNN预训练中的有效性,并提供了生成图对齐数据集的Python包,以促进可重复性和进一步的研究。
The Graph Alignment Dataset is a novel benchmark dataset designed to evaluate the structural analysis capabilities of Graph Neural Networks (GNNs). This dataset is generated from synthetic random graphs and real-world graph datasets, and extends the graph isomorphism problem by aligning two unlabeled graphs to maximize the number of overlapping edges. The creation of this dataset enables the generation of datasets with controllable difficulty levels, allowing for more nuanced evaluations. Additionally, the authors demonstrated the effectiveness of the graph alignment task in unsupervised GNN pre-training, and released a Python package for generating graph alignment datasets to facilitate reproducibility and further research.
提供机构:
INRIA, École Normale Supérieure - PSL Paris, France
创建时间:
2025-05-19
搜集汇总
数据集介绍

构建方式
在复杂网络分析领域,图对齐问题作为图同构问题的广义形式,为评估图神经网络的结构分析能力提供了新的基准。本研究采用自监督学习框架,通过合成随机图和真实世界图数据集构建多样化的图对齐数据集。具体构建过程包括:基于给定基础图数据集,通过控制边添加和删除概率(p_add和p_remove)生成具有不同噪声水平η的扰动图,确保生成图对保持拓扑相关性。对于大规模图数据,采用广度优先搜索采样算法保留局部拓扑特征,最终形成包含原始图、扰动图及最优对齐排列的三元组数据集。
特点
该数据集的核心价值在于其可调节的难度层级和跨领域适用性。通过精确控制噪声水平η(4%-30%),可生成八种不同难度的子数据集,形成从简单对齐到复杂匹配的连续评估谱系。数据集覆盖五种基础图拓扑(包括Erdös-Rényi随机图、分子图AQSOL/PCQM4Mv2、引文网络CoraFull/OGBN-Arxiv),平均节点数从15到100不等,平均度分布在2-8之间。特别设计的噪声注入机制既保持了图的结构特性,又避免了因过度扰动导致的图不连通问题,为评估不同GNN架构在不同拓扑条件下的表现提供了标准化测试平台。
使用方法
数据集支持双阶段应用范式:在基准测试阶段,采用孪生网络架构评估GNN的结构理解能力。训练时通过二元交叉熵损失优化节点相似度矩阵与真实排列的匹配度,评估阶段则利用匈牙利算法求解线性分配问题获取最终对齐精度。在迁移应用阶段,预训练的GNN生成节点嵌入可作为位置编码(GAPE),增强Transformer模型在图回归任务中的表现。实验表明,在PCQM4Mv2分子数据集上,结合GAPE的Transformer仅用6.2M参数即达到0.0497 MAE,显著优于现有基准。使用配套开源工具包可便捷生成新数据集,并支持自定义GNN架构的基准测试。
背景与挑战
背景概述
Graph Alignment Datasets由INRIA和École Normale Supérieure - PSL的研究人员于2025年提出,旨在为图神经网络(GNNs)提供一种新颖的基准测试方法。该数据集基于图对齐问题,这是一个组合优化任务,通过最大化两个未标记图的重叠边来对齐它们。该数据集的创建解决了现有基准测试在评估GNNs结构理解能力方面的不足,特别是在不同图拓扑结构下的性能比较。该数据集的影响力体现在其能够为GNNs的结构分析能力提供细粒度的评估,并为无监督预训练提供有效的节点嵌入。
当前挑战
Graph Alignment Datasets面临的挑战主要包括两个方面:1) 领域问题的挑战:该数据集旨在解决图对齐问题,这是一个NP难问题,需要高效的算法来近似求解。此外,图对齐问题在不同图拓扑结构下的表现差异较大,如何设计一个通用的评估框架是一个重要挑战。2) 构建过程中的挑战:生成图对齐数据集需要确保图对的关联性,同时不改变图的拓扑结构。此外,处理大规模图时,计算相似度矩阵的高效性也是一个技术难点。这些挑战需要通过创新的算法设计和优化的计算流程来解决。
常用场景
经典使用场景
在图形神经网络(GNN)的基准测试中,Graph Alignment Datasets通过图形对齐问题提供了一种新颖的评估方法。该方法通过生成不同难度的数据集,能够有效评估各种GNN架构在结构分析能力上的表现。特别是在异构图形和同构图形中,各向异性GNN架构展现出了更优越的性能。
实际应用
在实际应用中,Graph Alignment Datasets生成的节点嵌入可作为位置编码,用于基于Transformer的模型在下游图形回归任务中。实验证明,这种方法在三个分子回归任务中表现优异,并在PCQM4Mv2数据集上以更少的参数实现了最先进的性能。
衍生相关工作
该数据集衍生了一系列相关研究,特别是在图形对齐问题的近似求解和位置编码生成方面。例如,基于图形对齐任务的节点嵌入方法在分子化学和材料科学领域得到了广泛应用,推动了GNN在结构理解和组合优化任务中的进一步发展。
以上内容由遇见数据集搜集并总结生成



