graphs-datasets/CSL

Name: graphs-datasets/CSL
Creator: graphs-datasets
Published: 2023-02-07 16:37:07
License: 暂无描述

Hugging Face2023-02-07 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/graphs-datasets/CSL

下载链接

链接失效反馈

官方服务：

资源简介：

--- license: mit task_categories: - graph-ml --- # Dataset Card for CSK ## Table of Contents - [Table of Contents](#table-of-contents) - [Dataset Description](#dataset-description) - [Dataset Summary](#dataset-summary) - [Supported Tasks and Leaderboards](#supported-tasks-and-leaderboards) - [External Use](#external-use) - [PyGeometric](#pygeometric) - [Dataset Structure](#dataset-structure) - [Data Properties](#data-properties) - [Data Fields](#data-fields) - [Data Splits](#data-splits) - [Additional Information](#additional-information) - [Licensing Information](#licensing-information) - [Citation Information](#citation-information) - [Contributions](#contributions) ## Dataset Description - **[Homepage](https://github.com/graphdeeplearning/benchmarking-gnns)** - **Paper:**: (see citation) ### Dataset Summary The CSL dataset is a synthetic dataset, to test GNN expressivity. ### Supported Tasks and Leaderboards `CSL` should be used for binary graph classification, on isomoprhism or not. ## External Use ### PyGeometric To load in PyGeometric, do the following: ```python from datasets import load_dataset from torch_geometric.data import Data from torch_geometric.loader import DataLoader dataset_hf = load_dataset("graphs-datasets/<mydataset>") # For the train set (replace by valid or test as needed) dataset_pg_list = [Data(graph) for graph in dataset_hf["train"]] dataset_pg = DataLoader(dataset_pg_list) ``` ## Dataset Structure ### Data Properties | property | value | |---|---| | #graphs | 150 | | average #nodes | 41.0 | | average #edges | 164.0 | ### Data Fields Each row of a given file is a graph, with: - `node_feat` (list: #nodes x #node-features): nodes - `edge_index` (list: 2 x #edges): pairs of nodes constituting edges - `edge_attr` (list: #edges x #edge-features): for the aforementioned edges, contains their features - `y` (list: #labels): contains the number of labels available to predict - `num_nodes` (int): number of nodes of the graph ### Data Splits This data is split. It comes from the PyGeometric version of the dataset. ## Additional Information ### Licensing Information The dataset has been released under MIT license. ### Citation Information ``` @article{DBLP:journals/corr/abs-2003-00982, author = {Vijay Prakash Dwivedi and Chaitanya K. Joshi and Thomas Laurent and Yoshua Bengio and Xavier Bresson}, title = {Benchmarking Graph Neural Networks}, journal = {CoRR}, volume = {abs/2003.00982}, year = {2020}, url = {https://arxiv.org/abs/2003.00982}, eprinttype = {arXiv}, eprint = {2003.00982}, timestamp = {Sat, 23 Jan 2021 01:14:30 +0100}, biburl = {https://dblp.org/rec/journals/corr/abs-2003-00982.bib}, bibsource = {dblp computer science bibliography, https://dblp.org} } ```

许可证：MIT协议任务类别： - 图机器学习（Graph ML） # CSL数据集卡片 ## 目录 - [目录](#目录) - [数据集描述](#数据集描述) - [数据集概述](#数据集概述) - [支持任务与评测基准](#支持任务与评测基准) - [外部使用](#外部使用) - [PyGeometric](#pygeometric) - [数据集结构](#数据集结构) - [数据属性](#数据属性) - [数据字段](#数据字段) - [数据划分](#数据划分) - [附加信息](#附加信息) - [许可证信息](#许可证信息) - [引用信息](#引用信息) - [贡献者信息](#贡献者信息) ## 数据集描述 - **[项目主页](https://github.com/graphdeeplearning/benchmarking-gnns)** - **论文：**（详见引用信息） ### 数据集概述本CSL数据集为合成数据集，用于测试图神经网络（Graph Neural Network, GNN）的表达能力。 ### 支持任务与评测基准 CSL数据集适用于二元图分类任务，用于判断图是否同构。 ## 外部使用 ### PyGeometric 若需在PyGeometric中加载该数据集，请执行如下代码： python from datasets import load_dataset from torch_geometric.data import Data from torch_geometric.loader import DataLoader dataset_hf = load_dataset("graphs-datasets/<mydataset>") # For the train set (replace by valid or test as needed) dataset_pg_list = [Data(graph) for graph in dataset_hf["train"]] dataset_pg = DataLoader(dataset_pg_list) ## 数据集结构 ### 数据属性 | 属性 | 取值 | |---|---| | 图总数 | 150 | | 平均节点数 | 41.0 | | 平均边数 | 164.0 | ### 数据字段每个文件的每一行对应一张图，包含以下字段： - `node_feat`（列表：节点数 × 节点特征数）：节点特征数据 - `edge_index`（列表：2 × 边数）：构成边的节点对索引 - `edge_attr`（列表：边数 × 边特征数）：对应边的特征信息 - `y`（列表：标签数）：待预测的标签集合 - `num_nodes`（整数）：该图的节点总数 ### 数据划分本数据集已完成划分，其来源为PyGeometric版本的该数据集。 ## 附加信息 ### 许可证信息本数据集采用MIT协议发布。 ### 引用信息 @article{DBLP:journals/corr/abs-2003-00982, author = {Vijay Prakash Dwivedi and Chaitanya K. Joshi and Thomas Laurent and Yoshua Bengio and Xavier Bresson}, title = {Benchmarking Graph Neural Networks}, journal = {CoRR}, volume = {abs/2003.00982}, year = {2020}, url = {https://arxiv.org/abs/2003.00982}, eprinttype = {arXiv}, eprint = {2003.00982}, timestamp = {Sat, 23 Jan 2021 01:14:30 +0100}, biburl = {https://dblp.org/rec/journals/corr/abs-2003.00982.bib}, bibsource = {dblp computer science bibliography, https://dblp.org} }

提供机构：

graphs-datasets

原始信息汇总

数据集概述

数据集描述

数据集名称: CSL
数据集类型: 合成数据集
主要用途: 测试图神经网络的表达能力
支持任务: 二元图分类，判断图是否同构

数据集结构

数据属性

图数量: 150
平均节点数: 41.0
平均边数: 164.0

数据字段

node_feat (列表: #nodes x #node-features): 节点特征
edge_index (列表: 2 x #edges): 构成边的节点对
edge_attr (列表: #edges x #edge-features): 边特征
y (列表: #labels): 可预测的标签数量
num_nodes (整数): 图的节点数

数据分割

数据已分割，源自PyGeometric版本的数据集

额外信息

许可信息

许可类型: MIT许可

引用信息

@article{DBLP:journals/corr/abs-2003-00982, author = {Vijay Prakash Dwivedi and Chaitanya K. Joshi and Thomas Laurent and Yoshua Bengio and Xavier Bresson}, title = {Benchmarking Graph Neural Networks}, journal = {CoRR}, volume = {abs/2003.00982}, year = {2020}, url = {https://arxiv.org/abs/2003.00982}, eprinttype = {arXiv}, eprint = {2003.00982}, timestamp = {Sat, 23 Jan 2021 01:14:30 +0100}, biburl = {https://dblp.org/rec/journals/corr/abs-2003-00982.bib}, bibsource = {dblp computer science bibliography, https://dblp.org} }

搜集汇总

数据集介绍

构建方式

在探索图神经网络表达能力的学术背景下，CSL数据集作为一种专为图同构分类任务设计的合成数据集应运而生。其构建过程基于精心设计的图生成算法，旨在系统性地产生具有特定结构模式的图实例，以精确评估模型区分不同图结构的能力。该数据集包含150个图，每个图平均拥有41个节点和164条边，通过算法控制生成具有不同同构类别的图对，为模型测试提供了结构清晰且可控的基准环境。

特点

CSL数据集的显著特征在于其纯粹的合成性质与明确的任务导向性。作为专为图同构分类设计的基准，每个图实例均包含节点特征、边索引、边属性及标签等结构化字段，数据格式规范统一。其图结构在节点与边的规模上保持相对均衡，平均节点数41.0与平均边数164.0确保了数据集的复杂度适中，既避免了过度简化，又控制了计算开销，使其成为检验图神经网络结构感知能力的理想试金石。

使用方法

在具体应用层面，CSL数据集主要用于图神经网络的二元图分类任务，特别是图同构判别。研究者可通过Hugging Face的`datasets`库直接加载数据，并利用PyTorch Geometric框架进行高效的数据转换与批量处理。典型流程包括将加载的图数据转换为`torch_geometric.data.Data`对象，进而封装为`DataLoader`以支持模型训练与评估。这种集成方式使得该数据集能够无缝接入现有的图学习管道，为算法性能的标准化比较提供便利。

背景与挑战

背景概述

在人工智能与图机器学习领域，图神经网络（GNN）的表达能力评估一直是核心研究议题之一。CSL数据集作为一项合成数据集，由Vijay Prakash Dwivedi、Chaitanya K. Joshi等学者于2020年提出，旨在系统性地测试GNN模型在图同构问题上的判别能力。该数据集由150个图结构组成，平均节点数为41，平均边数为164，专注于二元图分类任务，即判断图对是否同构。其诞生源于对现有GNN基准测试局限性的反思，通过提供可控且具有挑战性的合成数据，推动了图神经网络理论表达能力的深入研究，并为后续模型设计提供了重要参考依据。

当前挑战

CSL数据集所针对的领域挑战在于图同构问题的复杂性，该问题属于计算理论中的难点，传统GNN模型由于消息传递机制的局限，往往难以区分某些高阶图结构，导致表达能力不足。在构建过程中，研究人员需精心设计合成图，确保其既能涵盖丰富的结构变化，又能精确控制同构与非同构类别，以形成有效的评估基准。此外，数据集的规模与多样性平衡也是一项挑战，需在有限图数量内嵌入足够的判别难度，避免过拟合或欠拟合，从而真实反映GNN模型的泛化能力与理论边界。

常用场景

经典使用场景

在图形神经网络领域，CSL数据集作为合成数据集，主要用于评估模型在图同构问题上的表达能力。该数据集包含150个图结构，每个图平均拥有41个节点和164条边，通过二元图分类任务检验模型能否准确区分图之间的同构关系。这一经典场景为研究者提供了标准化的测试平台，用以衡量不同GNN架构在捕捉图结构细微差异时的性能表现。

实际应用

尽管CSL是合成数据集，但其设计理念在实际图学习应用中具有重要参考价值。在化学分子结构分析领域，区分结构相似但功能迥异的分子需要精确的图同构判别能力；社交网络分析中识别拓扑等效的社区结构同样依赖此类技术。该数据集为这些实际场景中的算法鲁棒性评估提供了基础性基准，助力工业界开发更可靠的图结构识别系统。

衍生相关工作

基于CSL数据集的理论探索催生了多项经典研究工作。Dwivedi等人发表的《Benchmarking Graph Neural Networks》首次系统性地将该数据集纳入GNN评估体系，引发了学界对模型表达能力的广泛讨论。后续研究如GIN、k-GNN等突破性架构均使用该数据集验证其超越传统WL测试的能力，形成了以表达力为核心的图神经网络研究分支，持续推动着图表示学习理论的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集