five

graphs-datasets/CSL

收藏
Hugging Face2023-02-07 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/graphs-datasets/CSL
下载链接
链接失效反馈
官方服务:
资源简介:
--- license: mit task_categories: - graph-ml --- # Dataset Card for CSK ## Table of Contents - [Table of Contents](#table-of-contents) - [Dataset Description](#dataset-description) - [Dataset Summary](#dataset-summary) - [Supported Tasks and Leaderboards](#supported-tasks-and-leaderboards) - [External Use](#external-use) - [PyGeometric](#pygeometric) - [Dataset Structure](#dataset-structure) - [Data Properties](#data-properties) - [Data Fields](#data-fields) - [Data Splits](#data-splits) - [Additional Information](#additional-information) - [Licensing Information](#licensing-information) - [Citation Information](#citation-information) - [Contributions](#contributions) ## Dataset Description - **[Homepage](https://github.com/graphdeeplearning/benchmarking-gnns)** - **Paper:**: (see citation) ### Dataset Summary The CSL dataset is a synthetic dataset, to test GNN expressivity. ### Supported Tasks and Leaderboards `CSL` should be used for binary graph classification, on isomoprhism or not. ## External Use ### PyGeometric To load in PyGeometric, do the following: ```python from datasets import load_dataset from torch_geometric.data import Data from torch_geometric.loader import DataLoader dataset_hf = load_dataset("graphs-datasets/<mydataset>") # For the train set (replace by valid or test as needed) dataset_pg_list = [Data(graph) for graph in dataset_hf["train"]] dataset_pg = DataLoader(dataset_pg_list) ``` ## Dataset Structure ### Data Properties | property | value | |---|---| | #graphs | 150 | | average #nodes | 41.0 | | average #edges | 164.0 | ### Data Fields Each row of a given file is a graph, with: - `node_feat` (list: #nodes x #node-features): nodes - `edge_index` (list: 2 x #edges): pairs of nodes constituting edges - `edge_attr` (list: #edges x #edge-features): for the aforementioned edges, contains their features - `y` (list: #labels): contains the number of labels available to predict - `num_nodes` (int): number of nodes of the graph ### Data Splits This data is split. It comes from the PyGeometric version of the dataset. ## Additional Information ### Licensing Information The dataset has been released under MIT license. ### Citation Information ``` @article{DBLP:journals/corr/abs-2003-00982, author = {Vijay Prakash Dwivedi and Chaitanya K. Joshi and Thomas Laurent and Yoshua Bengio and Xavier Bresson}, title = {Benchmarking Graph Neural Networks}, journal = {CoRR}, volume = {abs/2003.00982}, year = {2020}, url = {https://arxiv.org/abs/2003.00982}, eprinttype = {arXiv}, eprint = {2003.00982}, timestamp = {Sat, 23 Jan 2021 01:14:30 +0100}, biburl = {https://dblp.org/rec/journals/corr/abs-2003-00982.bib}, bibsource = {dblp computer science bibliography, https://dblp.org} } ```

许可证:MIT协议 任务类别: - 图机器学习(Graph ML) # CSL数据集卡片 ## 目录 - [目录](#目录) - [数据集描述](#数据集描述) - [数据集概述](#数据集概述) - [支持任务与评测基准](#支持任务与评测基准) - [外部使用](#外部使用) - [PyGeometric](#pygeometric) - [数据集结构](#数据集结构) - [数据属性](#数据属性) - [数据字段](#数据字段) - [数据划分](#数据划分) - [附加信息](#附加信息) - [许可证信息](#许可证信息) - [引用信息](#引用信息) - [贡献者信息](#贡献者信息) ## 数据集描述 - **[项目主页](https://github.com/graphdeeplearning/benchmarking-gnns)** - **论文:**(详见引用信息) ### 数据集概述 本CSL数据集为合成数据集,用于测试图神经网络(Graph Neural Network, GNN)的表达能力。 ### 支持任务与评测基准 CSL数据集适用于二元图分类任务,用于判断图是否同构。 ## 外部使用 ### PyGeometric 若需在PyGeometric中加载该数据集,请执行如下代码: python from datasets import load_dataset from torch_geometric.data import Data from torch_geometric.loader import DataLoader dataset_hf = load_dataset("graphs-datasets/<mydataset>") # For the train set (replace by valid or test as needed) dataset_pg_list = [Data(graph) for graph in dataset_hf["train"]] dataset_pg = DataLoader(dataset_pg_list) ## 数据集结构 ### 数据属性 | 属性 | 取值 | |---|---| | 图总数 | 150 | | 平均节点数 | 41.0 | | 平均边数 | 164.0 | ### 数据字段 每个文件的每一行对应一张图,包含以下字段: - `node_feat`(列表:节点数 × 节点特征数):节点特征数据 - `edge_index`(列表:2 × 边数):构成边的节点对索引 - `edge_attr`(列表:边数 × 边特征数):对应边的特征信息 - `y`(列表:标签数):待预测的标签集合 - `num_nodes`(整数):该图的节点总数 ### 数据划分 本数据集已完成划分,其来源为PyGeometric版本的该数据集。 ## 附加信息 ### 许可证信息 本数据集采用MIT协议发布。 ### 引用信息 @article{DBLP:journals/corr/abs-2003-00982, author = {Vijay Prakash Dwivedi and Chaitanya K. Joshi and Thomas Laurent and Yoshua Bengio and Xavier Bresson}, title = {Benchmarking Graph Neural Networks}, journal = {CoRR}, volume = {abs/2003.00982}, year = {2020}, url = {https://arxiv.org/abs/2003.00982}, eprinttype = {arXiv}, eprint = {2003.00982}, timestamp = {Sat, 23 Jan 2021 01:14:30 +0100}, biburl = {https://dblp.org/rec/journals/corr/abs-2003.00982.bib}, bibsource = {dblp computer science bibliography, https://dblp.org} }
提供机构:
graphs-datasets
原始信息汇总

数据集概述

数据集描述

  • 数据集名称: CSL
  • 数据集类型: 合成数据集
  • 主要用途: 测试图神经网络的表达能力
  • 支持任务: 二元图分类,判断图是否同构

数据集结构

数据属性

  • 图数量: 150
  • 平均节点数: 41.0
  • 平均边数: 164.0

数据字段

  • node_feat (列表: #nodes x #node-features): 节点特征
  • edge_index (列表: 2 x #edges): 构成边的节点对
  • edge_attr (列表: #edges x #edge-features): 边特征
  • y (列表: #labels): 可预测的标签数量
  • num_nodes (整数): 图的节点数

数据分割

  • 数据已分割,源自PyGeometric版本的数据集

额外信息

许可信息

  • 许可类型: MIT许可

引用信息

@article{DBLP:journals/corr/abs-2003-00982, author = {Vijay Prakash Dwivedi and Chaitanya K. Joshi and Thomas Laurent and Yoshua Bengio and Xavier Bresson}, title = {Benchmarking Graph Neural Networks}, journal = {CoRR}, volume = {abs/2003.00982}, year = {2020}, url = {https://arxiv.org/abs/2003.00982}, eprinttype = {arXiv}, eprint = {2003.00982}, timestamp = {Sat, 23 Jan 2021 01:14:30 +0100}, biburl = {https://dblp.org/rec/journals/corr/abs-2003-00982.bib}, bibsource = {dblp computer science bibliography, https://dblp.org} }

搜集汇总
数据集介绍
main_image_url
构建方式
在探索图神经网络表达能力的学术背景下,CSL数据集作为一种专为图同构分类任务设计的合成数据集应运而生。其构建过程基于精心设计的图生成算法,旨在系统性地产生具有特定结构模式的图实例,以精确评估模型区分不同图结构的能力。该数据集包含150个图,每个图平均拥有41个节点和164条边,通过算法控制生成具有不同同构类别的图对,为模型测试提供了结构清晰且可控的基准环境。
特点
CSL数据集的显著特征在于其纯粹的合成性质与明确的任务导向性。作为专为图同构分类设计的基准,每个图实例均包含节点特征、边索引、边属性及标签等结构化字段,数据格式规范统一。其图结构在节点与边的规模上保持相对均衡,平均节点数41.0与平均边数164.0确保了数据集的复杂度适中,既避免了过度简化,又控制了计算开销,使其成为检验图神经网络结构感知能力的理想试金石。
使用方法
在具体应用层面,CSL数据集主要用于图神经网络的二元图分类任务,特别是图同构判别。研究者可通过Hugging Face的`datasets`库直接加载数据,并利用PyTorch Geometric框架进行高效的数据转换与批量处理。典型流程包括将加载的图数据转换为`torch_geometric.data.Data`对象,进而封装为`DataLoader`以支持模型训练与评估。这种集成方式使得该数据集能够无缝接入现有的图学习管道,为算法性能的标准化比较提供便利。
背景与挑战
背景概述
在人工智能与图机器学习领域,图神经网络(GNN)的表达能力评估一直是核心研究议题之一。CSL数据集作为一项合成数据集,由Vijay Prakash Dwivedi、Chaitanya K. Joshi等学者于2020年提出,旨在系统性地测试GNN模型在图同构问题上的判别能力。该数据集由150个图结构组成,平均节点数为41,平均边数为164,专注于二元图分类任务,即判断图对是否同构。其诞生源于对现有GNN基准测试局限性的反思,通过提供可控且具有挑战性的合成数据,推动了图神经网络理论表达能力的深入研究,并为后续模型设计提供了重要参考依据。
当前挑战
CSL数据集所针对的领域挑战在于图同构问题的复杂性,该问题属于计算理论中的难点,传统GNN模型由于消息传递机制的局限,往往难以区分某些高阶图结构,导致表达能力不足。在构建过程中,研究人员需精心设计合成图,确保其既能涵盖丰富的结构变化,又能精确控制同构与非同构类别,以形成有效的评估基准。此外,数据集的规模与多样性平衡也是一项挑战,需在有限图数量内嵌入足够的判别难度,避免过拟合或欠拟合,从而真实反映GNN模型的泛化能力与理论边界。
常用场景
经典使用场景
在图形神经网络领域,CSL数据集作为合成数据集,主要用于评估模型在图同构问题上的表达能力。该数据集包含150个图结构,每个图平均拥有41个节点和164条边,通过二元图分类任务检验模型能否准确区分图之间的同构关系。这一经典场景为研究者提供了标准化的测试平台,用以衡量不同GNN架构在捕捉图结构细微差异时的性能表现。
实际应用
尽管CSL是合成数据集,但其设计理念在实际图学习应用中具有重要参考价值。在化学分子结构分析领域,区分结构相似但功能迥异的分子需要精确的图同构判别能力;社交网络分析中识别拓扑等效的社区结构同样依赖此类技术。该数据集为这些实际场景中的算法鲁棒性评估提供了基础性基准,助力工业界开发更可靠的图结构识别系统。
衍生相关工作
基于CSL数据集的理论探索催生了多项经典研究工作。Dwivedi等人发表的《Benchmarking Graph Neural Networks》首次系统性地将该数据集纳入GNN评估体系,引发了学界对模型表达能力的广泛讨论。后续研究如GIN、k-GNN等突破性架构均使用该数据集验证其超越传统WL测试的能力,形成了以表达力为核心的图神经网络研究分支,持续推动着图表示学习理论的发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作