Graph Datasets

github2025-12-29 更新2026-01-13 收录

下载链接：

https://github.com/godfreyjason/graph-datasets

下载链接

链接失效反馈

官方服务：

资源简介：

一个用于机器学习和网络科学项目的图数据集列表，特别是图神经网络。包括Zacharys karate club、Cora和CiteSeer等数据集，每个数据集都有详细的描述、统计信息和引用信息。

A curated collection of graph datasets for machine learning and network science projects, with a specific focus on graph neural network (GNN) research. This collection includes classic datasets such as Zachary's Karate Club, Cora, and CiteSeer, where each dataset is accompanied by detailed descriptions, statistical summaries, and complete citation information.

创建时间：

2025-12-29

原始信息汇总

数据集概述

数据集简介

此仓库是一个用于机器学习和网络科学项目的图数据集列表，主要面向图神经网络。

数据集分类与详情

1. 节点分类数据集

Zacharys karate club

描述：数据由Wayne Zachary从一所大学空手道俱乐部的成员处收集，用于研究网络冲突解决的信息流模型，以解释该团体因成员间争端而分裂的过程。
规模：
- 节点数：34
- 边数：156
- 特征数：0 或 34
- 类别数：2 或 4
链接：
- 文件：http://vlado.fmf.uni-lj.si/pub/networks/data/Ucinet/UciData.htm
- NetworkX：https://networkx.org/documentation/stable/auto_examples/graph/plot_karate_club.htm
- PyTorch Geometric：https://pytorch-geometric.readthedocs.io/en/latest/modules/datasets.html#torch_geometric.datasets.KarateClub
引用文献：
- Zachary, W. W. (1977). An Information Flow Model for Conflict and Fission in Small Groups. Journal of Anthropological Research, 33(4), 452–473.

Cora

描述：该数据集包含2708篇科学出版物，被分为七个类别。引文网络包含5429条链接。数据集中的每篇出版物由一个0/1值词向量描述，表示字典中对应词的存在与否。字典包含1433个唯一单词。
规模：
- 节点数：2,708
- 边数：10,556
- 特征数：1,433
- 类别数：7
链接：
- 文件：https://linqs.org/datasets/#cora
- Papers With Code：https://paperswithcode.com/dataset/cora
- PyTorch Geometric：https://pytorch-geometric.readthedocs.io/en/latest/modules/datasets.html#torch_geometric.datasets.Planetoid
- DGL：https://docs.dgl.ai/generated/dgl.data.CoraGraphDataset.html#dgl.data.CoraGraphDataset
- Spektral：https://graphneural.network/datasets/#citation
引用文献：
- Sen, P., Namata, G. M., Bilgic, M., Getoor, L., Gallagher, B., & Eliassi-Rad, T. (2008). Collective Classification in Network Data. AI Magazine, 29(3), 93–106.

CiteSeer

描述：该数据集包含3312篇科学出版物，被分为六个类别。引文网络包含4732条链接。数据集中的每篇出版物由一个0/1值词向量描述，表示字典中对应词的存在与否。字典包含3703个唯一单词。
规模：
- 节点数：3,327
- 边数：9,104
- 特征数：3,703
- 类别数：6
链接：
- 文件：https://linqs.org/datasets/#citeseer-doc-classification
- Papers With Code：https://paperswithcode.com/dataset/citeseer
- PyTorch Geometric：https://pytorch-geometric.readthedocs.io/en/latest/modules/datasets.html#torch_geometric.datasets.Planetoid
- DGL：https://docs.dgl.ai/generated/dgl.data.CiteseerGraphDataset.html#dgl.data.CiteseerGraphDataset
- Spektral：https://graphneural.network/datasets/#citation
引用文献：
- Rossi, R., & Ahmed, N. (2015). The Network Data Repository with Interactive Graph Analytics and Visualization. In AAAI Conference on Artificial Intelligence (pp. 4292–4293).

PubMed

描述：该数据集包含来自PubMed数据库中与糖尿病相关的19717篇科学出版物，被分为三个类别。引文网络包含44338条链接。数据集中的每篇出版物由一个基于500个唯一单词字典的TF/IDF加权词向量描述。
规模：
- 节点数：19,717
- 边数：88,648
- 特征数：500
- 类别数：3
链接：
- 文件：https://linqs.org/datasets/#pubmed-diabetes
- Papers With Code：https://paperswithcode.com/dataset/pubmed
- PyTorch Geometric：https://pytorch-geometric.readthedocs.io/en/latest/modules/datasets.html#torch_geometric.datasets.Planetoid
- DGL：https://docs.dgl.ai/generated/dgl.data.PubmedGraphDataset.html#dgl.data.PubmedGraphDataset
- Spektral：https://graphneural.network/datasets/#citation
- HuggingFace：https://huggingface.co/datasets/pubmed
引用文献：
- Namata, G. M., London, B., Getoor, L., & Huang, B. (2012). Query-Driven Active Surveying for Collective Classification. In International Workshop on Mining and Learning with Graphs.

Facebook Page-Page

描述：此网络图是经过验证的Facebook主页的页面-页面图。节点代表官方Facebook页面，链接代表页面间的相互点赞。节点特征是从页面所有者创建的用于总结页面目的的站点描述中提取的。该图于2017年11月通过Facebook Graph API收集，并限制在Facebook定义的4个类别页面：政治家、政府组织、电视节目和公司。与此数据集相关的任务是对这4个站点类别进行多类节点分类。
规模：
- 节点数：22,470
- 边数：171,002
- 特征数：128
- 类别数：4
链接：
- 文件：http://snap.stanford.edu/data/facebook-large-page-page-network.html
- Papers With Code：https://paperswithcode.com/dataset/facebook-page-page
- PyTorch Geometric：https://pytorch-geometric.readthedocs.io/en/latest/modules/datasets.html#torch_geometric.datasets.FacebookPagePage
引用文献：
- Rozemberczki, B., Allen, C., & Sarkar, R. (2019). Multi-scale Attributed Node Embedding. arXiv preprint arXiv:1909.13021.

2. 节点回归数据集

Wikipedia Network

描述：数据收集自英文维基百科（2018年12月）。这些数据集代表了特定主题（变色龙、鳄鱼和松鼠）上的页面-页面网络。节点代表文章，边是它们之间的相互链接。特征列表中的特征存在意味着一个信息性名词出现在维基百科文章的文本中。目标csv文件包含节点标识符以及每个页面在2017年10月至2018年11月期间的平均月流量。目标是预测2018年12月的对数平均月流量。PyTorch Geometric提供了此数据集的节点分类变体，其目标是预测正确的分箱。
规模：
- Chameleon：
  - 节点数：2,277
  - 边数：31,421
  - 特征数：2,325
  - 类别：连续值
- Crocodile：
  - 节点数：11,631
  - 边数：170,918
  - 特征数：2,325
  - 类别：连续值
- Squirrel：
  - 节点数：5,201
  - 边数：198,493
  - 特征数：2,325
  - 类别：连续值
链接：
- 文件：https://snap.stanford.edu/data/wikipedia-article-networks.html
- PyTorch Geometric：https://pytorch-geometric.readthedocs.io/en/latest/modules/datasets.html#torch_geometric.datasets.WikipediaNetwork
引用文献：
- Rozemberczki, B., Allen, C., & Sarkar, R. (2019). Multi-scale Attributed Node Embedding. arXiv preprint arXiv:1909.13021.

搜集汇总

数据集介绍

构建方式

在复杂网络与图机器学习领域，数据集的构建往往源于对现实世界系统结构的抽象与数字化。Graph Datasets 的构建遵循这一原则，通过收集并整理多种来源的真实网络数据而形成。例如，Zachary's karate club 数据集源自对社会团体成员互动关系的实地观察与记录；Cora、CiteSeer 和 PubMed 等学术引用网络数据集，则是从科学文献数据库中提取出版物之间的引用关系，并结合文本内容生成节点特征向量。Facebook Page-Page 数据集通过官方 API 采集了经过验证的公共主页及其相互关注关系，而 Wikipedia Network 则基于维基百科页面间的超链接结构构建。这些数据集的构建过程均注重保留原始网络的拓扑特性与节点属性，为图结构学习提供了坚实的实证基础。

特点

Graph Datasets 的显著特点在于其多样性与代表性，涵盖了从经典小型社会网络到大规模信息网络的不同尺度与领域。数据集普遍具备清晰的图结构定义，包含节点、边、节点特征及类别标签或回归目标等核心要素。例如，多个数据集提供了高维稀疏的词袋模型特征，如 Cora 的 1433 维二元特征，有效编码了文本语义信息。同时，数据集的划分通常支持标准的机器学习任务，如节点分类与节点回归，并附有详尽的元数据与规范的引用格式。这种精心设计的结构使得该集合能够广泛服务于图神经网络、网络科学等研究方向，成为算法开发与性能评估的基准测试平台。

使用方法

该数据集集合为研究人员提供了便捷的接入途径，通常可通过主流图学习框架直接加载使用。例如，利用 PyTorch Geometric、DGL 或 Spektral 等库，用户可以轻松导入 KarateClub、Planetoid（包含 Cora, CiteSeer, PubMed）或 FacebookPagePage 等特定数据集，这些接口已自动处理了数据下载、图结构构建及特征预处理等步骤。对于 Wikipedia Network 等回归任务数据集，框架同样提供了标准化的数据加载器。在实际研究中，开发者可依据任务需求，直接在这些预处理的图数据上实施模型训练、验证与测试流程。数据集对应的原始文件链接与学术引用信息也为深入分析和合规使用提供了必要支持。

背景与挑战

背景概述

图数据集作为机器学习与网络科学领域的重要资源，其发展历程可追溯至20世纪70年代。以Wayne Zachary于1977年创建的Karate Club数据集为标志，该数据集通过记录空手道俱乐部成员间的社交关系，首次将现实世界的小群体冲突与网络结构分析相结合，为后续复杂网络研究奠定了实证基础。随着图神经网络技术的兴起，诸如Cora、CiteSeer、PubMed等学术文献引用网络数据集应运而生，这些由LINQS等研究机构构建的数据集，通过将科学出版物建模为节点、引用关系建模为边，并融合文本特征向量，核心解决了节点分类与回归等图结构学习问题。这些数据集不仅推动了社区检测、节点表征学习等方向的发展，更成为评估图神经网络模型性能的标准基准，深刻影响了社交网络分析、生物信息学及推荐系统等多个交叉学科领域。

当前挑战

图数据集在解决领域问题与构建过程中面临多重挑战。在领域问题层面，图结构数据固有的异质性、动态性与稀疏性为模型设计带来困难，例如节点分类任务需处理类别不平衡与长尾分布，而节点回归则需应对连续目标值的噪声敏感问题；同时，图数据中复杂的依赖关系使得传统独立同分布假设失效，模型需有效捕捉局部与全局拓扑信息。在构建过程中，数据采集常受限于隐私法规与获取权限，如Facebook Page-Page数据集需依赖平台API且类别受限；此外，图数据的标注成本高昂，且特征工程需平衡语义信息与维度诅咒，例如Wikipedia网络数据需从非结构化文本中提取有效特征并处理缺失边。这些挑战共同制约着图数据集规模与质量的提升，对算法鲁棒性与泛化能力提出了更高要求。

常用场景

经典使用场景

在复杂网络与图机器学习领域，该数据集集合为节点分类任务提供了经典范例。以Zachary空手道俱乐部网络为例，其描绘了社会群体内部互动结构，常被用于验证社区检测算法的有效性，通过节点间的连接关系预测成员在冲突后的派系归属。Cora、CiteSeer和PubMed等引文网络则模拟学术文献间的引用关系，利用文档内容特征与引用链接，实现自动化文献主题分类，成为评估图神经网络节点表示学习性能的标准基准。

衍生相关工作

围绕这些经典数据集，衍生了一系列奠基性的研究工作。例如，基于Cora等引文网络，Kipf和Welling提出了图卷积网络（GCN）框架，成为半监督节点分类的里程碑模型。Zachary空手道俱乐部则启发了社区发现算法的比较研究，如Girvan-Newman算法在该网络上的验证。同时，Facebook页面网络与维基百科网络促进了多尺度属性节点嵌入（如Multi-scale Attributed Node Embedding）等方法的创新，推动了图表示学习在动态与异质图上的扩展。

数据集最近研究