Benchmark dataset for graph classification

github2024-02-29 更新2024-05-31 收录

下载链接：

https://github.com/FilippoMB/Benchmark_dataset_for_graph_classification

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集用于快速测试图分类算法，如图核和图神经网络。数据集包含的图属于3个不同类别，每个图的节点数量可变，节点特征向量是一个大小为5的独热向量，编码节点颜色。类别由图上颜色的相对位置决定。数据集分为四个版本：small_easy、easy、small_hard和hard，每个版本都有不同的图数量和连接性。

This dataset is designed for the rapid testing of graph classification algorithms, such as graph kernels and graph neural networks. The graphs included in the dataset belong to three distinct categories, with the number of nodes in each graph being variable. The feature vector of each node is a one-hot vector of size 5, encoding the color of the node. The category of each graph is determined by the relative positions of the colors on the graph. The dataset is divided into four versions: small_easy, easy, small_hard, and hard, each with different numbers of graphs and connectivity patterns.

创建时间：

2019-06-20

原始信息汇总

数据集概述

数据集目的

本数据集旨在测试图分类算法，如Graph Kernels和Graph Neural Networks。其特点是节点特征和邻接矩阵单独考虑时完全无信息，依赖于节点特征或图结构的算法难以取得良好的分类效果。

数据集组成

类别数量：3类
节点特征：每个节点的特征向量为大小5的一热向量，编码节点颜色
类别决定因素：颜色在图中的相对位置

数据集版本

small_easy：每类100图，节点数40-80，高度连接
easy：每类600图，节点数100-200，高度连接
small_hard：每类100图，节点数40-80，稀疏图
hard：每类600图，节点数100-200，稀疏图

数据集格式

数据已分割：训练、验证和测试集
包含内容：邻接矩阵列表（csr_matrix格式）、节点特征列表（numpy数组）、类别标签（numpy数组）

数据集加载示例

python import numpy as np

loaded = np.load(datasets/hard.npz, allow_pickle=True)

X_train = loaded[tr_feat] # 节点特征 A_train = list(loaded[tr_adj]) # 邻接矩阵列表 y_train = loaded[tr_class] # 类别标签

X_val = loaded[val_feat] # 节点特征 A_val = list(loaded[val_adj]) # 邻接矩阵列表 y_val = loaded[val_class] # 类别标签

X_test = loaded[te_feat] # 节点特征 A_test = list(loaded[te_adj]) # 邻接矩阵列表 y_test = loaded[te_class] # 类别标签

数据集引用

引用文献：Bianchi, F. M., Gallicchio, C., & Micheli, A. (2022). Pyramidal Reservoir Graph Neural Network. Neurocomputing, 470, 389-404.

数据集统计信息

Dataset	# classes	# graphs	TR size	VAL size	TEST size	avg nodes	avg edges	Node Attr. (Dim.)
easy_small	3	300	239	30	31	58.25	358.8	5
hard_small	3	300	245	29	26	58.64	224.94	5
easy	3	1800	1475	162	163	147.82	922.66	5
hard	3	1800	1451	159	190	148.32	572.32	5

搜集汇总

数据集介绍

构建方式

该数据集的构建旨在为图分类算法提供一个基准测试平台，特别是针对图核和图神经网络。数据集中的图被设计为节点特征和邻接矩阵单独考虑时完全不具信息性，从而迫使算法必须综合考虑图的结构和节点特征才能取得良好的分类效果。数据集包含三个不同类别的图，每个图的节点数量可变，节点特征为大小为5的独热编码向量，表示节点的颜色。类别由图中颜色的相对位置决定。数据集分为四个版本，分别针对不同难度和规模的图进行分类任务。

特点

该数据集的特点在于其设计的巧妙性，节点特征和邻接矩阵单独使用时无法提供有效信息，这要求算法必须同时考虑图的全局结构和局部特征。数据集包含四个版本，分别针对不同难度和规模的图进行分类任务，涵盖了从简单到复杂的多种场景。每个图的节点数量可变，节点特征为独热编码向量，类别由图中颜色的相对位置决定。这种设计使得数据集能够有效测试算法在处理复杂图结构时的性能。

使用方法

该数据集的使用方法较为灵活，支持多种图分类算法的测试。数据集已预先划分为训练集、验证集和测试集，每个集合包含邻接矩阵、节点特征和类别标签。用户可以通过加载数据文件，使用Python中的NumPy库进行数据处理。此外，数据集还支持通过Pytorch Geometric库进行图神经网络的训练和测试。用户可以根据需要选择不同的数据集版本，并通过提供的代码示例快速上手。数据集的灵活性和易用性使其成为图分类算法研究中的重要工具。

背景与挑战

背景概述

图分类作为图数据分析中的核心任务之一，近年来随着图神经网络（GNN）和图核方法的发展，逐渐成为研究热点。Benchmark dataset for graph classification 数据集由 Filippo Maria Bianchi 等人于 2022 年创建，旨在为图分类算法提供一个标准化的测试平台。该数据集包含三类图结构，节点特征为五维独热编码，类别由节点颜色在图中相对位置决定。其独特之处在于，单独考虑节点特征或图结构时，信息完全无意义，从而迫使算法必须结合两者才能取得良好分类效果。该数据集为图分类领域的研究提供了重要的基准，推动了图神经网络和图核方法的创新与优化。

当前挑战

Benchmark dataset for graph classification 数据集在设计上面临多重挑战。首先，图分类任务本身具有复杂性，图结构的多样性和节点特征的稀疏性使得传统分类算法难以直接应用。其次，该数据集通过设计无信息的节点特征和邻接矩阵，要求算法必须同时考虑图结构和节点特征的交互关系，这增加了模型的复杂度。此外，数据集中包含稀疏图和高阶邻域信息，进一步提高了分类难度。在构建过程中，如何确保图结构的多样性和节点特征的随机性，同时保持类别的可区分性，也是一个技术难点。这些挑战共同推动了图分类算法的创新与优化。

常用场景

经典使用场景

在图分类算法的研究中，Benchmark dataset for graph classification 数据集被广泛用于快速测试和验证各类图分类算法的性能。该数据集通过设计节点特征和邻接矩阵的无信息性，迫使算法必须综合考虑图的结构和节点特征，从而有效评估算法的鲁棒性和泛化能力。

衍生相关工作

该数据集衍生了许多经典的研究工作，如基于图核的SVM分类方法、图神经网络中的消息传递架构以及各种图池化技术。这些工作不仅提升了图分类算法的性能，还为图数据的表示学习提供了新的思路，推动了图机器学习领域的进一步发展。

数据集最近研究