GC-Bench

Name: GC-Bench
Creator: 北京航空航天大学
Published: 2024-06-30 15:47:34
License: 暂无描述

arXiv2024-06-30 更新2024-07-04 收录

下载链接：

https://github.com/RingBDStack/GC-Bench

下载链接

链接失效反馈

官方服务：

资源简介：

GC-Bench数据集由北京航空航天大学等机构创建，旨在评估图凝聚算法在不同场景下的性能。数据集包括12个图数据集，涵盖了节点级和图级的任务。创建过程中，数据集被系统地用于分析图凝聚方法的有效性、转移性和效率。该数据集主要应用于机器学习领域，特别是图数据处理，旨在解决大规模图数据的管理、存储和传输问题。

GC-Bench dataset was constructed by Beihang University and other institutions, aiming to evaluate the performance of graph coalescing algorithms across various scenarios. The dataset comprises 12 graph datasets covering both node-level and graph-level tasks. During its development, the dataset was systematically utilized to analyze the effectiveness, transferability and efficiency of graph coalescing methods. This dataset is primarily applied in the field of machine learning, particularly in graph data processing, and is designed to address the management, storage and transmission issues of large-scale graph data.

提供机构：

北京航空航天大学

创建时间：

2024-06-30

原始信息汇总

Graph Condensation Benchmark (GC-Bench)

概述

GC-Bench 是一个基于 PyTorch 和 PyTorch Geometric 的开源统一基准，用于图凝聚（Graph Condensation, GC）。该基准集成了 12 种最先进的图凝聚算法，并在 12 个不同的图数据集上进行节点级和图级任务的性能分析。

主要贡献

综合基准：GC-Bench 系统地整合了 12 种代表性和竞争性的 GC 方法，通过统一的凝聚和评估，提供了关于有效性、可转移性和效率的全面分析。
多方面的评估和分析：对 GC 方法进行了详细的评估，考察了它们的有效性、效率和复杂性，揭示了当前 GC 算法的优势和局限性，为未来的研究提供了有价值的见解。
开源基准库：GC-Bench 是开源的，易于扩展新的方法和数据集，促进了进一步的探索和可重复研究，有助于推动图凝聚领域的发展。

开始使用

安装

bash git clone https://github.com/RingBDStack/GC-Bench.git cd GC-Bench pip install -r requirements.txt conda env create -f environment.yml

下载数据集

下载数据集并存储在 data 目录中。项目结构应如下所示： bash GC-Bench ├── data │ ├── cora │ ├── citeseer │ └── ... └── DM └── ...

凝聚图数据集

不同的图凝聚方法（如梯度匹配、分布匹配、核岭回归等）可以在相应的目录中使用。

例如，运行分布匹配（DM）方法的命令如下： bash python DM/main.py --dataset=citeseer --epochs=2000 --gpu_id=0 --lr_adj=0.001 --lr_feat=0.01 --lr_model=0.1 --method=GCDM --nlayers=2 --outer=10 --reduction_rate=1 --save=1 --seed=1 --transductive=1

运行梯度匹配（GM）方法进行节点分类的命令如下： bash python GM/main_nc.py --dataset cora --transductive=1 --nlayers=2 --sgc=1 --lr_feat=1e-4 --lr_adj=1e-4 --r=0.5 --seed=1 --epoch=600 --save=1

运行梯度匹配（GM）方法进行图分类的命令如下： bash python GM/main_gc.py --dataset ogbg-molhiv --init real --nconvs=3 --dis=mse --lr_adj=0.01 --lr_feat=0.01 --epochs=1000 --eval_init=1 --net_norm=none --pool=mean --seed=1 --ipc=5 --save=1

参数也可以在配置文件中设置。使用配置文件运行实验的命令如下： bash python GM/main_nc.py --config config_DosCond --section DBLP-r0.250

评估凝聚图

对于不同架构的评估，可以运行以下命令： bash python baselines/test_nc.py --method ${method} --dataset cora --gpu_id=0 --r=0.5 --nruns=5

将 ${method} 替换为使用的具体凝聚方法。

对于不同任务的评估，可以运行以下命令： bash python evaluator/test_other_tasks.py --method ${method} --dataset cora --gpu_id=0 --r=0.5 --seed=1 --nruns=5 --task=LP

将 ${method} 替换为使用的具体凝聚方法，--task 参数可以设置为 LP（链接预测）、AD（异常检测）等。

算法参考

图凝聚（GC）算法的总结如下：

方法	初始化	骨干模型	下游任务	论文	代码	会议
Random	—	—	—	—	—
Herding	—	—	—	Herding Dynamical Weights to Learn	code	ICML, 2009
K-Center	—	—	—	Active learning for convolutional neural networks: A core-set approach	code	ICLR, 2018
GCond	Random Sample	GNN	NC	Graph Condensation for Graph Neural Networks	code	ICLR, 2021
DosCond	Random Sample	GNN	NC, GC	Condensing Graphs via One-Step Gradient Matching	code	SIGKDD, 2022
SGDD	Random Sample	GNN	NC, LP, AD	Does Graph Distillation See Like Vision Dataset Counterpart?	code	NeurIPS, 2023
GCDM	Random Sample	GNN	NC	Graph Condensation via Receptive Field Distribution Matching	—	arXiv, 2022
DM	Random Sample	GNN	NC	CaT: Balanced Continual Graph Learning with Graph Condensation	—	ICDM, 2023
SFGC	K-Center	GNN	NC	Structure-free Graph Condensation: From Large-scale Graphs to Condensed Graph-free Data	code	NeurIPS, 2023
GEOM	K-Center	GNN	NC	Navigating Complexity: Toward Lossless Graph Condensation via Expanding Window Matching	code	ICML, 2024
KiDD	Random Sample	GNTK	GC	Kernel Ridge Regression-Based Graph Dataset Distillation	code	SIGKDD, 2023
Mirage	—	GNN	GC	Mirage: Model-Agnostic Graph Distillation for Graph Classification	code	ICLR, 2024

搜集汇总

数据集介绍

构建方式

GC-Bench是一个用于评估图压缩性能的基准测试，它通过系统地评估现有图压缩方法在不同场景下的性能来填补这一领域的空白。GC-Bench从有效性、可迁移性和复杂性三个方面系统地调查了图压缩的特点。它综合评估了12种最先进的图压缩算法在节点级和图级任务中的性能，并在12个多样化的图数据集上分析了它们的性能。此外，我们还开发了一个易于使用的库，用于训练和评估不同的图压缩方法，以促进可重复的研究。GC-Bench库可在https://github.com/RingBDStack/GC-Bench获取。

特点

GC-Bench的特点在于其综合性和系统性。它不仅涵盖了多种图压缩方法，还涉及多个图数据集和任务。此外，GC-Bench还从多个维度评估了图压缩方法，包括有效性、可迁移性和复杂性。这使得GC-Bench成为一个全面且深入的工具，可以用于评估和比较不同的图压缩方法。

使用方法

使用GC-Bench的方法非常简单。首先，用户需要从GC-Bench库中选择一个图压缩方法。然后，用户可以使用该库提供的训练和评估功能来训练和评估所选的图压缩方法。最后，用户可以使用GC-Bench提供的可视化工具来分析评估结果。GC-Bench的易用性使得它成为研究人员和开发人员的理想选择，可以用于评估和比较不同的图压缩方法。

背景与挑战

背景概述

图 condensation（GC）因其能够降低大型图数据集的规模同时保留其本质特性而近年来受到广泛关注。GC 的核心思想是创建一个更小、更易于管理的图，保留原始图的特征。尽管近年来开发了大量的图 condensation 方法，但没有一个全面的评估和深入分析，这成为理解该领域进展的巨大障碍。为了填补这一空白，我们开发了一个全面的 Graph Condensation Benchmark（GC-Bench），系统地分析不同场景下图 condensation 的性能。具体来说，GC-Bench 从有效性、可迁移性和复杂性等维度系统地研究了图 condensation 的特征。我们在节点级别和图级别任务中全面评估了 12 种最先进的图 condensation 算法，并分析了它们在 12 个不同的图数据集中的性能。此外，我们还开发了一个易于使用的库，用于训练和评估不同的 GC 方法，以促进可重复的研究。GC-Bench 库可在 https://github.com/RingBDStack/GC-Bench 获取。

当前挑战

GC-Bench 面临的主要挑战包括：1) 当前 GC 方法主要针对简单的图数据，对于更复杂的图结构（如异构图、有向图、超图、签名图、动态图、富文本图等）的 condensation 方法的研究仍需加强；2) 当前 GC 方法主要针对下游标签或特定任务进行训练，未来研究应重点关注开发无任务依赖、无监督或自监督的 GC 方法，以独立于特定任务或数据集保留关键的结构和语义信息；3) 当前 GC 方法与完整训练过程相结合，资源消耗大且可扩展性差，未来研究应探索将 condensation 过程与训练过程解耦的方法，以提高 GC 的效率和可扩展性。

常用场景

经典使用场景

GC-Bench作为图凝聚的基准测试，旨在通过减少大型图数据集的规模，同时保留其本质属性，以提升图神经网络的训练效率。该数据集经典的使用场景包括：1) 对比不同图凝聚方法在不同压缩比下的性能，以便于选择最适合特定任务的算法；2) 分析图凝聚方法在不同类型数据集上的表现，包括同质和异质图数据集；3) 探究图凝聚方法在不同下游任务上的可迁移性，例如节点分类、链接预测、节点聚类和异常检测等。

衍生相关工作

GC-Bench的发布促进了图凝聚领域的研究进展，并衍生出许多相关工作。例如，一些研究基于GC-Bench对图凝聚方法进行改进，以提高其性能和可迁移性；另一些研究则关注图凝聚在特定任务中的应用，例如药物发现、社交网络分析和知识图谱构建等。

数据集最近研究