Graph Datasets

github2025-12-29 更新2026-01-13 收录

下载链接：

https://github.com/khoroumenate/graph-datasets

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个用于机器学习和网络科学项目的图数据集列表，特别专注于图神经网络。包含多个数据集，如Zacharys karate club、Cora、CiteSeer等，每个数据集都有详细的描述、统计信息和引用信息。

This is a collection of graph datasets for machine learning and network science projects, with a particular focus on graph neural networks. It includes multiple datasets such as Zachary's karate club, Cora, CiteSeer, etc. Each dataset comes with detailed descriptions, statistical information, and citation information.

创建时间：

2025-12-29

原始信息汇总

图数据集概览

数据集简介

此仓库是一个用于机器学习和网络科学项目的图数据集列表，主要面向图神经网络。

数据集分类与详情

1. 节点分类数据集

Zacharys karate club

描述：数据由Wayne Zachary从一所大学空手道俱乐部的成员处收集，用于通过信息流模型解释该群体因成员间争议而分裂的过程。
规模：
- 节点数：34
- 边数：156
- 特征数：0 或 34
- 类别数：2 或 4
链接：
- 文件：http://vlado.fmf.uni-lj.si/pub/networks/data/Ucinet/UciData.htm
- NetworkX：https://networkx.org/documentation/stable/auto_examples/graph/plot_karate_club.htm
- PyTorch Geometric：https://pytorch-geometric.readthedocs.io/en/latest/modules/datasets.html#torch_geometric.datasets.KarateClub
引用文献：
- Zachary, W. W. (1977). An Information Flow Model for Conflict and Fission in Small Groups. Journal of Anthropological Research, 33(4), 452–473.

Cora

描述：该数据集包含2708篇科学出版物，被分为七个类别。引文网络包含5429条链接。每篇出版物由一个0/1值词向量描述，表示字典中对应词的缺失/存在。字典包含1433个独特的词。
规模：
- 节点数：2,708
- 边数：10,556
- 特征数：1,433
- 类别数：7
链接：
- 文件：https://linqs.org/datasets/#cora
- Papers With Code：https://paperswithcode.com/dataset/cora
- PyTorch Geometric：https://pytorch-geometric.readthedocs.io/en/latest/modules/datasets.html#torch_geometric.datasets.Planetoid
- DGL：https://docs.dgl.ai/generated/dgl.data.CoraGraphDataset.html#dgl.data.CoraGraphDataset
- Spektral：https://graphneural.network/datasets/#citation
引用文献：
- Sen, P., Namata, G. M., Bilgic, M., Getoor, L., Gallagher, B., & Eliassi-Rad, T. (2008). Collective Classification in Network Data. AI Magazine, 29(3), 93–106.

CiteSeer

描述：该数据集包含3312篇科学出版物，被分为六个类别。引文网络包含4732条链接。每篇出版物由一个0/1值词向量描述，表示字典中对应词的缺失/存在。字典包含3703个独特的词。
规模：
- 节点数：3,327
- 边数：9,104
- 特征数：3,703
- 类别数：6
链接：
- 文件：https://linqs.org/datasets/#citeseer-doc-classification
- Papers With Code：https://paperswithcode.com/dataset/citeseer
- PyTorch Geometric：https://pytorch-geometric.readthedocs.io/en/latest/modules/datasets.html#torch_geometric.datasets.Planetoid
- DGL：https://docs.dgl.ai/generated/dgl.data.CiteseerGraphDataset.html#dgl.data.CiteseerGraphDataset
- Spektral：https://graphneural.network/datasets/#citation
引用文献：
- Rossi, R., & Ahmed, N. (2015). The Network Data Repository with Interactive Graph Analytics and Visualization. AAAI Conference on Artificial Intelligence, 29, 4292–4293.

PubMed

描述：该数据集包含来自PubMed数据库中与糖尿病相关的19717篇科学出版物，被分为三个类别。引文网络包含44338条链接。每篇出版物由一个基于500个独特词字典的TF/IDF加权词向量描述。
规模：
- 节点数：19,717
- 边数：88,648
- 特征数：500
- 类别数：3
链接：
- 文件：https://linqs.org/datasets/#pubmed-diabetes
- Papers With Code：https://paperswithcode.com/dataset/pubmed
- PyTorch Geometric：https://pytorch-geometric.readthedocs.io/en/latest/modules/datasets.html#torch_geometric.datasets.Planetoid
- DGL：https://docs.dgl.ai/generated/dgl.data.PubmedGraphDataset.html#dgl.data.PubmedGraphDataset
- Spektral：https://graphneural.network/datasets/#citation
- HuggingFace：https://huggingface.co/datasets/pubmed
引用文献：
- Namata, G. M., London, B., Getoor, L., & Huang, B. (2012). Query-Driven Active Surveying for Collective Classification. International Workshop on Mining and Learning with Graphs.

Facebook Page-Page

描述：此网络图是经过验证的Facebook站点的页面-页面图。节点代表官方Facebook页面，链接代表站点间的相互点赞。节点特征是从页面所有者创建的用于总结站点目的的站点描述中提取的。该图于2017年11月通过Facebook Graph API收集，并限制在Facebook定义的4个类别页面：政治家、政府组织、电视节目和公司。与此数据集相关的任务是对这4个站点类别进行多类节点分类。
规模：
- 节点数：22,470
- 边数：171,002
- 特征数：128
- 类别数：4
链接：
- 文件：http://snap.stanford.edu/data/facebook-large-page-page-network.html
- Papers With Code：https://paperswithcode.com/dataset/facebook-page-page
- PyTorch Geometric：https://pytorch-geometric.readthedocs.io/en/latest/modules/datasets.html#torch_geometric.datasets.FacebookPagePage
引用文献：
- Rozemberczki, B., Allen, C., & Sarkar, R. (2019). Multi-scale Attributed Node Embedding. arXiv preprint arXiv:1909.13021.

2. 节点回归数据集

Wikipedia Network

描述：数据收集自英文维基百科（2018年12月）。这些数据集代表了特定主题（变色龙、鳄鱼和松鼠）上的页面-页面网络。节点代表文章，边是它们之间的相互链接。特征列表中的特征存在意味着一个信息性名词出现在维基百科文章的文本中。目标csv文件包含节点标识符以及2017年10月至2018年11月期间每个页面的月平均流量。目标是预测2018年12月的对数月平均流量。PyTorch Geometric提供了此数据集的节点分类变体，其目标是预测正确的分箱。
规模：
- Chameleon：
  - 节点数：2,277
  - 边数：31,421
  - 特征数：2,325
  - 类别：连续值
- Crocodile：
  - 节点数：11,631
  - 边数：170,918
  - 特征数：2,325
  - 类别：连续值
- Squirrel：
  - 节点数：5,201
  - 边数：198,493
  - 特征数：2,325
  - 类别：连续值
链接：
- 文件：https://snap.stanford.edu/data/wikipedia-article-networks.html
- PyTorch Geometric：https://pytorch-geometric.readthedocs.io/en/latest/modules/datasets.html#torch_geometric.datasets.WikipediaNetwork
引用文献：
- Rozemberczki, B., Allen, C., & Sarkar, R. (2019). Multi-scale Attributed Node Embedding. arXiv preprint arXiv:1909.13021.

搜集汇总

数据集介绍

构建方式

在复杂网络与图机器学习领域，数据集的构建往往依赖于对现实世界系统的抽象与结构化表达。Graph Datasets 的构建过程体现了这一原则，其收录的图数据均源自真实世界的网络关系。例如，Zachary's karate club 数据集通过对空手道俱乐部成员社交互动的观察与记录，构建了节点与边的关系；Cora、CiteSeer 和 PubMed 等学术引用网络数据集，则是通过解析科学文献间的引用关系，并将每篇文献的文本内容转化为特征向量而形成。Facebook Page-Page 数据集通过官方API收集了经过验证的公共主页及其相互关注关系，并提取了页面描述作为节点特征。这些数据集的构建均遵循了从原始交互或关联数据中提取节点、边及特征信息的通用范式，确保了网络结构的真实性与代表性。

特点

该数据集集合的突出特点在于其多样性与代表性，涵盖了从经典小型社交网络到大规模学术引用网络等多种图结构类型。每个子数据集均提供了精确的节点数、边数、特征维度和类别数（或回归目标）的统计信息，结构清晰且元数据完备。例如，Karate club 作为网络科学中的经典微型案例，结构简单但蕴含丰富的社群分裂动态；而 Cora、PubMed 等大规模引文网络则具有高维稀疏特征，适用于验证图神经网络在节点分类任务上的性能。数据集同时包含了分类与回归任务，如 Wikipedia Network 系列提供了连续的流量预测目标，拓展了图数据学习的应用场景。这种涵盖不同规模、结构和任务类型的特性，使其成为评估与比较图机器学习算法的基准资源。

使用方法

对于研究人员与开发者而言，该数据集的使用已与主流图学习框架深度集成，极大降低了技术门槛。用户可通过 PyTorch Geometric、DGL 或 Spektral 等专用库直接加载数据集，这些库通常已内置数据加载、预处理及划分训练/验证/测试集的功能。以 PyTorch Geometric 为例，调用相应的数据集类（如 `KarateClub`、`Planetoid`）即可获得包含图数据对象的标准格式，该对象封装了节点特征、边索引、标签等关键属性。对于更底层的访问，README 中也提供了原始数据文件的直接链接。在实际研究中，这些数据集常被用于训练图卷积网络等模型，以完成节点分类、属性预测或链接分析等核心任务，是推动图表示学习领域发展的基础实验平台。

背景与挑战

背景概述

图数据集作为机器学习与网络科学领域的重要资源，其发展历程可追溯至20世纪70年代。以Wayne Zachary于1977年创建的Karate Club数据集为早期代表，该数据集通过记录空手道俱乐部成员间的互动关系，为小团体冲突与分裂的信息流模型研究提供了实证基础。随着图神经网络技术的兴起，后续数据集如Cora、CiteSeer和PubMed等应运而生，这些由学术机构如AAAI、LINQS及斯坦福大学等推动构建的数据集，专注于解决节点分类与回归等核心问题，极大地促进了社交网络分析、引文网络挖掘及网页流量预测等领域的研究进展。

当前挑战

图数据集在解决复杂网络问题时面临多重挑战。在领域问题层面，节点分类任务需处理高维稀疏特征与类别不平衡问题，而节点回归则需应对连续值预测中的非线性关系与噪声干扰。构建过程中，数据采集常受限于网络结构的动态性与隐私保护要求，例如Facebook Page-Page数据集需通过API合规获取；同时，特征提取与标注依赖人工或半自动方法，如Wikipedia Network数据集的流量统计需跨时段整合，这可能导致数据不一致或偏差。此外，图数据的异质性，如不同规模与密度的子图并存，也为模型泛化带来考验。

常用场景

经典使用场景

在社交网络分析与机器学习领域，图数据集常被用于节点分类任务，如Zachary空手道俱乐部数据集，该数据集描绘了社团成员间的社交关系，成为研究社区检测与群体分裂机制的经典范例。通过图神经网络模型，学者能够依据节点间的连接模式，预测成员在冲突后的归属，从而揭示网络结构对群体动态的影响。

实际应用

在实际应用中，图数据集支撑了社交媒体分析与推荐系统的开发，如Facebook页面-页面网络数据集，通过捕捉官方页面间的互相关注关系，可用于自动识别页面类别，优化内容分发策略。此外，Wikipedia网络数据集中的节点回归任务，能够预测网页流量，为网络资源管理与在线广告投放提供数据驱动的决策依据。

衍生相关工作

基于这些图数据集，衍生了一系列经典研究工作，例如在引文网络上发展的Graph Convolutional Networks（GCN）模型，显著提升了节点分类的准确性。同时，Zachary空手道俱乐部数据集催生了众多社区检测算法，而Facebook与Wikipedia数据集则促进了多尺度属性节点嵌入技术的演进，为图神经网络的架构设计与优化奠定了实证基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集