graphs-datasets/CSL
收藏Hugging Face2023-02-07 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/graphs-datasets/CSL
下载链接
链接失效反馈官方服务:
资源简介:
---
license: mit
task_categories:
- graph-ml
---
# Dataset Card for CSK
## Table of Contents
- [Table of Contents](#table-of-contents)
- [Dataset Description](#dataset-description)
- [Dataset Summary](#dataset-summary)
- [Supported Tasks and Leaderboards](#supported-tasks-and-leaderboards)
- [External Use](#external-use)
- [PyGeometric](#pygeometric)
- [Dataset Structure](#dataset-structure)
- [Data Properties](#data-properties)
- [Data Fields](#data-fields)
- [Data Splits](#data-splits)
- [Additional Information](#additional-information)
- [Licensing Information](#licensing-information)
- [Citation Information](#citation-information)
- [Contributions](#contributions)
## Dataset Description
- **[Homepage](https://github.com/graphdeeplearning/benchmarking-gnns)**
- **Paper:**: (see citation)
### Dataset Summary
The CSL dataset is a synthetic dataset, to test GNN expressivity.
### Supported Tasks and Leaderboards
`CSL` should be used for binary graph classification, on isomoprhism or not.
## External Use
### PyGeometric
To load in PyGeometric, do the following:
```python
from datasets import load_dataset
from torch_geometric.data import Data
from torch_geometric.loader import DataLoader
dataset_hf = load_dataset("graphs-datasets/<mydataset>")
# For the train set (replace by valid or test as needed)
dataset_pg_list = [Data(graph) for graph in dataset_hf["train"]]
dataset_pg = DataLoader(dataset_pg_list)
```
## Dataset Structure
### Data Properties
| property | value |
|---|---|
| #graphs | 150 |
| average #nodes | 41.0 |
| average #edges | 164.0 |
### Data Fields
Each row of a given file is a graph, with:
- `node_feat` (list: #nodes x #node-features): nodes
- `edge_index` (list: 2 x #edges): pairs of nodes constituting edges
- `edge_attr` (list: #edges x #edge-features): for the aforementioned edges, contains their features
- `y` (list: #labels): contains the number of labels available to predict
- `num_nodes` (int): number of nodes of the graph
### Data Splits
This data is split. It comes from the PyGeometric version of the dataset.
## Additional Information
### Licensing Information
The dataset has been released under MIT license.
### Citation Information
```
@article{DBLP:journals/corr/abs-2003-00982,
author = {Vijay Prakash Dwivedi and
Chaitanya K. Joshi and
Thomas Laurent and
Yoshua Bengio and
Xavier Bresson},
title = {Benchmarking Graph Neural Networks},
journal = {CoRR},
volume = {abs/2003.00982},
year = {2020},
url = {https://arxiv.org/abs/2003.00982},
eprinttype = {arXiv},
eprint = {2003.00982},
timestamp = {Sat, 23 Jan 2021 01:14:30 +0100},
biburl = {https://dblp.org/rec/journals/corr/abs-2003-00982.bib},
bibsource = {dblp computer science bibliography, https://dblp.org}
}
```
许可证:MIT协议
任务类别:
- 图机器学习(Graph ML)
# CSL数据集卡片
## 目录
- [目录](#目录)
- [数据集描述](#数据集描述)
- [数据集概述](#数据集概述)
- [支持任务与评测基准](#支持任务与评测基准)
- [外部使用](#外部使用)
- [PyGeometric](#pygeometric)
- [数据集结构](#数据集结构)
- [数据属性](#数据属性)
- [数据字段](#数据字段)
- [数据划分](#数据划分)
- [附加信息](#附加信息)
- [许可证信息](#许可证信息)
- [引用信息](#引用信息)
- [贡献者信息](#贡献者信息)
## 数据集描述
- **[项目主页](https://github.com/graphdeeplearning/benchmarking-gnns)**
- **论文:**(详见引用信息)
### 数据集概述
本CSL数据集为合成数据集,用于测试图神经网络(Graph Neural Network, GNN)的表达能力。
### 支持任务与评测基准
CSL数据集适用于二元图分类任务,用于判断图是否同构。
## 外部使用
### PyGeometric
若需在PyGeometric中加载该数据集,请执行如下代码:
python
from datasets import load_dataset
from torch_geometric.data import Data
from torch_geometric.loader import DataLoader
dataset_hf = load_dataset("graphs-datasets/<mydataset>")
# For the train set (replace by valid or test as needed)
dataset_pg_list = [Data(graph) for graph in dataset_hf["train"]]
dataset_pg = DataLoader(dataset_pg_list)
## 数据集结构
### 数据属性
| 属性 | 取值 |
|---|---|
| 图总数 | 150 |
| 平均节点数 | 41.0 |
| 平均边数 | 164.0 |
### 数据字段
每个文件的每一行对应一张图,包含以下字段:
- `node_feat`(列表:节点数 × 节点特征数):节点特征数据
- `edge_index`(列表:2 × 边数):构成边的节点对索引
- `edge_attr`(列表:边数 × 边特征数):对应边的特征信息
- `y`(列表:标签数):待预测的标签集合
- `num_nodes`(整数):该图的节点总数
### 数据划分
本数据集已完成划分,其来源为PyGeometric版本的该数据集。
## 附加信息
### 许可证信息
本数据集采用MIT协议发布。
### 引用信息
@article{DBLP:journals/corr/abs-2003-00982,
author = {Vijay Prakash Dwivedi and
Chaitanya K. Joshi and
Thomas Laurent and
Yoshua Bengio and
Xavier Bresson},
title = {Benchmarking Graph Neural Networks},
journal = {CoRR},
volume = {abs/2003.00982},
year = {2020},
url = {https://arxiv.org/abs/2003.00982},
eprinttype = {arXiv},
eprint = {2003.00982},
timestamp = {Sat, 23 Jan 2021 01:14:30 +0100},
biburl = {https://dblp.org/rec/journals/corr/abs-2003.00982.bib},
bibsource = {dblp computer science bibliography, https://dblp.org}
}
提供机构:
graphs-datasets
原始信息汇总
数据集概述
数据集描述
- 数据集名称: CSL
- 数据集类型: 合成数据集
- 主要用途: 测试图神经网络的表达能力
- 支持任务: 二元图分类,判断图是否同构
数据集结构
数据属性
- 图数量: 150
- 平均节点数: 41.0
- 平均边数: 164.0
数据字段
node_feat(列表: #nodes x #node-features): 节点特征edge_index(列表: 2 x #edges): 构成边的节点对edge_attr(列表: #edges x #edge-features): 边特征y(列表: #labels): 可预测的标签数量num_nodes(整数): 图的节点数
数据分割
- 数据已分割,源自PyGeometric版本的数据集
额外信息
许可信息
- 许可类型: MIT许可
引用信息
@article{DBLP:journals/corr/abs-2003-00982, author = {Vijay Prakash Dwivedi and Chaitanya K. Joshi and Thomas Laurent and Yoshua Bengio and Xavier Bresson}, title = {Benchmarking Graph Neural Networks}, journal = {CoRR}, volume = {abs/2003.00982}, year = {2020}, url = {https://arxiv.org/abs/2003.00982}, eprinttype = {arXiv}, eprint = {2003.00982}, timestamp = {Sat, 23 Jan 2021 01:14:30 +0100}, biburl = {https://dblp.org/rec/journals/corr/abs-2003-00982.bib}, bibsource = {dblp computer science bibliography, https://dblp.org} }
搜集汇总
数据集介绍

构建方式
在探索图神经网络表达能力的学术背景下,CSL数据集作为一种专为图同构分类任务设计的合成数据集应运而生。其构建过程基于精心设计的图生成算法,旨在系统性地产生具有特定结构模式的图实例,以精确评估模型区分不同图结构的能力。该数据集包含150个图,每个图平均拥有41个节点和164条边,通过算法控制生成具有不同同构类别的图对,为模型测试提供了结构清晰且可控的基准环境。
特点
CSL数据集的显著特征在于其纯粹的合成性质与明确的任务导向性。作为专为图同构分类设计的基准,每个图实例均包含节点特征、边索引、边属性及标签等结构化字段,数据格式规范统一。其图结构在节点与边的规模上保持相对均衡,平均节点数41.0与平均边数164.0确保了数据集的复杂度适中,既避免了过度简化,又控制了计算开销,使其成为检验图神经网络结构感知能力的理想试金石。
使用方法
在具体应用层面,CSL数据集主要用于图神经网络的二元图分类任务,特别是图同构判别。研究者可通过Hugging Face的`datasets`库直接加载数据,并利用PyTorch Geometric框架进行高效的数据转换与批量处理。典型流程包括将加载的图数据转换为`torch_geometric.data.Data`对象,进而封装为`DataLoader`以支持模型训练与评估。这种集成方式使得该数据集能够无缝接入现有的图学习管道,为算法性能的标准化比较提供便利。
背景与挑战
背景概述
在人工智能与图机器学习领域,图神经网络(GNN)的表达能力评估一直是核心研究议题之一。CSL数据集作为一项合成数据集,由Vijay Prakash Dwivedi、Chaitanya K. Joshi等学者于2020年提出,旨在系统性地测试GNN模型在图同构问题上的判别能力。该数据集由150个图结构组成,平均节点数为41,平均边数为164,专注于二元图分类任务,即判断图对是否同构。其诞生源于对现有GNN基准测试局限性的反思,通过提供可控且具有挑战性的合成数据,推动了图神经网络理论表达能力的深入研究,并为后续模型设计提供了重要参考依据。
当前挑战
CSL数据集所针对的领域挑战在于图同构问题的复杂性,该问题属于计算理论中的难点,传统GNN模型由于消息传递机制的局限,往往难以区分某些高阶图结构,导致表达能力不足。在构建过程中,研究人员需精心设计合成图,确保其既能涵盖丰富的结构变化,又能精确控制同构与非同构类别,以形成有效的评估基准。此外,数据集的规模与多样性平衡也是一项挑战,需在有限图数量内嵌入足够的判别难度,避免过拟合或欠拟合,从而真实反映GNN模型的泛化能力与理论边界。
常用场景
经典使用场景
在图形神经网络领域,CSL数据集作为合成数据集,主要用于评估模型在图同构问题上的表达能力。该数据集包含150个图结构,每个图平均拥有41个节点和164条边,通过二元图分类任务检验模型能否准确区分图之间的同构关系。这一经典场景为研究者提供了标准化的测试平台,用以衡量不同GNN架构在捕捉图结构细微差异时的性能表现。
实际应用
尽管CSL是合成数据集,但其设计理念在实际图学习应用中具有重要参考价值。在化学分子结构分析领域,区分结构相似但功能迥异的分子需要精确的图同构判别能力;社交网络分析中识别拓扑等效的社区结构同样依赖此类技术。该数据集为这些实际场景中的算法鲁棒性评估提供了基础性基准,助力工业界开发更可靠的图结构识别系统。
衍生相关工作
基于CSL数据集的理论探索催生了多项经典研究工作。Dwivedi等人发表的《Benchmarking Graph Neural Networks》首次系统性地将该数据集纳入GNN评估体系,引发了学界对模型表达能力的广泛讨论。后续研究如GIN、k-GNN等突破性架构均使用该数据集验证其超越传统WL测试的能力,形成了以表达力为核心的图神经网络研究分支,持续推动着图表示学习理论的发展。
以上内容由遇见数据集搜集并总结生成



