five

GC-Bench

收藏
github2024-06-27 更新2024-07-06 收录
下载链接:
https://github.com/RingBDStack/GC-Bench
下载链接
链接失效反馈
官方服务:
资源简介:
GC-Bench是一个全面的图凝聚基准,用于系统地分析图凝聚方法在各种场景中的性能。它评估了12种最先进的图凝聚算法在节点级和图级任务上的效果、可转移性和复杂性。

GC-Bench is a comprehensive graph condensation benchmark designed to systematically analyze the performance of graph condensation methods across various scenarios. It evaluates 12 state-of-the-art graph condensation algorithms on their effectiveness, transferability and complexity across both node-level and graph-level tasks.
创建时间:
2024-06-26
原始信息汇总

Graph Condensation Benchmark (GC-Bench)

概述

GC-Bench 是一个基于 PyTorch 和 PyTorch Geometric 的开源统一基准,用于图凝聚(Graph Condensation, GC)。该基准涵盖了 12 种最先进的图凝聚算法,并在 12 个不同的图数据集上进行节点级和图级任务的性能分析。

主要贡献

  • 综合基准:GC-Bench 系统地整合了 12 种代表性和竞争性的 GC 方法,通过统一的凝聚和评估,提供了关于有效性、可转移性和效率的全面分析。
  • 多方面的评估和分析:对 GC 方法进行了详细的评估,考察了它们的有效性、效率和复杂性,揭示了当前 GC 算法的优缺点,为未来的研究提供了有价值的见解。
  • 开源基准库:GC-Bench 是开源的,易于扩展新的方法和数据集,促进了进一步的探索和可重复的研究,有助于推动图凝聚领域的发展。

开始使用

安装

bash git clone https://github.com/RingBDStack/GC-Bench.git cd GC-Bench pip install -r requirements.txt conda env create -f environment.yml

下载数据集

下载数据集并存储在 data 目录中。项目结构应如下所示: bash GC-Bench ├── data │ ├── cora │ ├── citeseer │ └── ... └── DM └── ...

凝聚图数据集

不同的图凝聚方法(如梯度匹配、分布匹配、核岭回归等)可以在相应的目录中使用。

例如,运行分布匹配(DM)方法的命令如下: bash python DM/main.py --dataset=citeseer --epochs=2000 --gpu_id=0 --lr_adj=0.001 --lr_feat=0.01 --lr_model=0.1 --method=GCDM --nlayers=2 --outer=10 --reduction_rate=1 --save=1 --seed=1 --transductive=1

运行梯度匹配(GM)方法进行节点分类的命令如下: bash python GM/main_nc.py --dataset cora --transductive=1 --nlayers=2 --sgc=1 --lr_feat=1e-4 --lr_adj=1e-4 --r=0.5 --seed=1 --epoch=600 --save=1

运行梯度匹配(GM)方法进行图分类的命令如下: bash python GM/main_gc.py --dataset ogbg-molhiv --init real --nconvs=3 --dis=mse --lr_adj=0.01 --lr_feat=0.01 --epochs=1000 --eval_init=1 --net_norm=none --pool=mean --seed=1 --ipc=5 --save=1

参数也可以在配置文件中设置。使用配置文件运行实验的命令如下: bash python GM/main_nc.py --config config_DosCond --section DBLP-r0.250

评估凝聚图

对于不同架构的评估,可以运行以下命令: bash python baselines/test_nc.py --method ${method} --dataset cora --gpu_id=0 --r=0.5 --nruns=5

${method} 替换为使用的具体凝聚方法。

对于不同任务的评估,可以运行以下命令: bash python evaluator/test_other_tasks.py --method ${method} --dataset cora --gpu_id=0 --r=0.5 --seed=1 --nruns=5 --task=LP

${method} 替换为使用的具体凝聚方法,--task 参数可以设置为 LP(链接预测)、AD(异常检测)等。

算法参考

图凝聚(GC)算法的总结如下:

方法 初始化 骨干模型 下游任务 论文 代码 会议
Random
Herding Herding Dynamical Weights to Learn code ICML, 2009
K-Center Active learning for convolutional neural networks: A core-set approach code ICLR, 2018
GCond Random Sample GNN NC Graph Condensation for Graph Neural Networks code ICLR, 2021
DosCond Random Sample GNN NC, GC Condensing Graphs via One-Step Gradient Matching code SIGKDD, 2022
SGDD Random Sample GNN NC, LP, AD Does Graph Distillation See Like Vision Dataset Counterpart? code NeurIPS, 2023
GCDM Random Sample GNN NC Graph Condensation via Receptive Field Distribution Matching arXiv, 2022
DM Random Sample GNN NC CaT: Balanced Continual Graph Learning with Graph Condensation ICDM, 2023
SFGC K-Center GNN NC Structure-free Graph Condensation: From Large-scale Graphs to Condensed Graph-free Data code NeurIPS, 2023
GEOM K-Center GNN NC Navigating Complexity: Toward Lossless Graph Condensation via Expanding Window Matching code ICML, 2024
KiDD Random Sample GNTK GC Kernel Ridge Regression-Based Graph Dataset Distillation code SIGKDD, 2023
Mirage GNN GC Mirage: Model-Agnostic Graph Distillation for Graph Classification code ICLR, 2024
搜集汇总
数据集介绍
main_image_url
构建方式
GC-Bench数据集的构建基于PyTorch和PyTorch Geometric框架,系统性地整合了12种代表性的图凝聚算法,涵盖节点级和图级任务。通过在12个不同的图数据集上进行统一凝聚和评估,该数据集提供了对图凝聚方法在有效性、可转移性和效率方面的全面分析。构建过程中,数据集不仅考虑了算法的多样性,还确保了评估的全面性,从而为图凝聚领域的研究提供了坚实的基础。
特点
GC-Bench数据集的主要特点在于其综合性和开放性。首先,它集成了12种先进的图凝聚算法,涵盖了节点级和图级任务,提供了多方面的评估和分析。其次,数据集的开放性使得研究人员可以轻松地扩展新的方法和数据集,促进了可重复研究和领域的发展。此外,GC-Bench还提供了详细的算法参考和公开的实现代码,增强了数据集的实用性和可访问性。
使用方法
使用GC-Bench数据集,研究人员首先需要通过Git克隆项目并安装所需的依赖项。随后,可以下载节点分类和图分类数据集,并将其存储在指定的目录中。数据集支持通过PyG直接下载和管理数据,简化了数据准备过程。在运行图凝聚算法时,用户可以通过命令行或配置文件设置参数,执行如分布匹配、梯度匹配等方法。最后,通过运行评估脚本,可以对凝聚后的图进行不同架构和任务的评估,从而全面分析算法的性能。
背景与挑战
背景概述
GC-Bench,即Graph Condensation Benchmark,是一个基于PyTorch和PyTorch Geometric的开源统一基准,专注于图凝聚(Graph Condensation, GC)技术。该数据集由主要研究人员或机构于近期创建,旨在系统地分析图凝聚方法在不同场景中的性能。GC-Bench整合了12种最先进的图凝聚算法,涵盖节点级和图级任务,并在12个多样化的图数据集上进行评估。其核心研究问题在于评估这些算法在有效性、可转移性和复杂性方面的表现,从而为图凝聚领域的进一步研究提供宝贵的见解。
当前挑战
GC-Bench在构建过程中面临多项挑战。首先,整合12种不同的图凝聚算法并确保其在统一框架下的兼容性和性能评估是一大技术难题。其次,选择和处理12个多样化的图数据集,以确保评估的全面性和代表性,也是一项复杂任务。此外,如何在保持算法高效性的同时,确保其在不同任务和数据集上的可转移性,是该数据集面临的另一重要挑战。最后,开源和易于扩展的特性要求数据集在设计上具备高度的灵活性和可维护性,以支持未来的研究和应用扩展。
常用场景
经典使用场景
GC-Bench数据集的经典使用场景主要集中在图数据的浓缩与简化上。通过集成12种最先进的图浓缩算法,该数据集在节点级和图级任务中进行了系统性的评估。研究者可以利用GC-Bench来测试和比较不同图浓缩方法的性能,从而优化图神经网络的训练效率和模型泛化能力。
实际应用
在实际应用中,GC-Bench数据集可用于优化图数据的存储和处理效率,特别是在处理大规模图数据时。例如,在社交网络分析、生物信息学和推荐系统等领域,通过使用图浓缩技术,可以显著减少数据存储需求和计算复杂度,同时保持关键信息的完整性。
衍生相关工作
GC-Bench数据集的发布催生了一系列相关研究工作,包括但不限于图浓缩算法的改进、图神经网络的优化以及大规模图数据处理技术的创新。例如,一些研究者基于GC-Bench开发了新的图浓缩方法,如基于核岭回归的图数据集蒸馏(KiDD)和结构无关的图浓缩(SFGC),这些工作进一步推动了图数据处理领域的发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作