Graph Datasets
收藏github2025-10-30 更新2025-11-01 收录
下载链接:
https://github.com/CodyOnGit/graph-datasets
下载链接
链接失效反馈官方服务:
资源简介:
该仓库是一个图数据集列表,专用于机器学习和网络科学项目,主要关注图神经网络。内容包括节点分类和节点回归等任务的数据集,例如Zacharys karate club(一个大学空手道俱乐部成员的数据,用于网络冲突解决模型)、Cora(包含2708篇科学出版物,分为7个类别,引用网络有5429个链接)和CiteSeer(包含3312篇科学出版物,分为6个类别,引用网络有4732个链接)。每个数据集都提供了节点数、边数、特征数和类别数等统计信息。
This repository is a curated list of graph datasets tailored for machine learning and network science projects, with a primary focus on graph neural networks. It covers datasets for tasks such as node classification and node regression. Representative examples include Zachary's Karate Club (a dataset recording members of a university karate club, used for network conflict resolution models), Cora (a dataset containing 2708 scientific publications grouped into 7 categories with a citation network of 5429 links), and CiteSeer (a dataset consisting of 3312 scientific publications categorized into 6 classes with a citation network of 4732 links). Statistical metrics such as the count of nodes, edges, features and categories are provided for each dataset.
创建时间:
2025-10-30
原始信息汇总
Graph Datasets 数据集概述
数据集简介
该资源库收集了用于机器学习和网络科学项目的图数据集,主要面向图神经网络应用。
数据集分类
节点分类数据集
Zacharys karate club
- 节点数:34
- 边数:156
- 特征数:0或34
- 类别数:2或4
- 数据描述:从大学空手道俱乐部成员收集的数据,用于研究网络冲突解决的信息流模型
- 资源链接:
- http://vlado.fmf.uni-lj.si/pub/networks/data/Ucinet/UciData.htm
- https://networkx.org/documentation/stable/auto_examples/graph/plot_karate_club.htm
- https://pytorch-geometric.readthedocs.io/en/latest/modules/datasets.html#torch_geometric.datasets.KarateClub
Cora
- 节点数:2,708
- 边数:10,556
- 特征数:1,433
- 类别数:7
- 数据描述:包含2708篇科学出版物,分为7个类别,引用网络包含5429个链接
- 资源链接:
- https://linqs.org/datasets/#cora
- https://paperswithcode.com/dataset/cora
- https://pytorch-geometric.readthedocs.io/en/latest/modules/datasets.html#torch_geometric.datasets.Planetoid
- https://docs.dgl.ai/generated/dgl.data.CoraGraphDataset.html#dgl.data.CoraGraphDataset
- https://graphneural.network/datasets/#citation
CiteSeer
- 节点数:3,327
- 边数:9,104
- 特征数:3,703
- 类别数:6
- 数据描述:包含3312篇科学出版物,分为6个类别,引用网络包含4732个链接
- 资源链接:
- https://linqs.org/datasets/#citeseer-doc-classification
- https://paperswithcode.com/dataset/citeseer
- https://pytorch-geometric.readthedocs.io/en/latest/modules/datasets.html#torch_geometric.datasets.Planetoid
- https://docs.dgl.ai/generated/dgl.data.CiteseerGraphDataset.html#dgl.data.CiteseerGraphDataset
- https://graphneural.network/datasets/#citation
PubMed
- 节点数:19,717
- 边数:88,648
- 特征数:500
- 类别数:3
- 数据描述:包含19717篇来自PubMed数据库的糖尿病相关科学出版物,分为3个类别
- 资源链接:
- https://linqs.org/datasets/#pubmed-diabetes
- https://paperswithcode.com/dataset/pubmed
- https://pytorch-geometric.readthedocs.io/en/latest/modules/datasets.html#torch_geometric.datasets.Planetoid
- https://docs.dgl.ai/generated/dgl.data.PubmedGraphDataset.html#dgl.data.PubmedGraphDataset
- https://graphneural.network/datasets/#citation
- https://huggingface.co/datasets/pubmed
Facebook Page-Page
- 节点数:22,470
- 边数:171,002
- 特征数:128
- 类别数:4
- 数据描述:经过验证的Facebook站点的页面-页面图,节点代表官方Facebook页面,链接代表站点间的相互点赞
- 资源链接:
- http://snap.stanford.edu/data/facebook-large-page-page-network.html
- https://paperswithcode.com/dataset/facebook-page-page
- https://pytorch-geometric.readthedocs.io/en/latest/modules/datasets.html#torch_geometric.datasets.FacebookPagePage
节点回归数据集
Wikipedia Network
- 数据集变体:
- Chameleon:2,277节点,31,421边,2,325特征
- Crocodile:11,631节点,170,918边,2,325特征
- Squirrel:5,201节点,198,493边,2,325特征
- 数据描述:从英文维基百科收集的页面-页面网络,节点代表文章,边代表相互链接
- 资源链接:
- https://snap.stanford.edu/data/wikipedia-article-networks.html
- https://pytorch-geometric.readthedocs.io/en/latest/modules/datasets.html#torch_geometric.datasets.WikipediaNetwork
搜集汇总
数据集介绍

构建方式
在复杂网络研究领域,数据集的构建往往依赖于真实世界系统的结构化表达。Graph Datasets通过收集社会互动、学术引用和在线平台关联等多维度关系,构建节点与边的拓扑结构。例如扎卡里空手道俱乐部数据集通过记录成员间冲突关系形成网络,而学术文献数据集则基于论文引用链构建知识图谱,所有数据均采用标准化格式存储节点属性与连接关系。
特点
该数据集囊括了从微观社交网络到宏观知识图谱的多元图结构,具有显著的规模与类型多样性。节点分类数据集如Cora包含2708篇文献的1433维词向量特征,节点回归数据集则提供维基百科页面的连续流量预测任务。各子集均配备完整的元数据描述,支持跨框架的即时加载与处理,为图神经网络研究提供多粒度的基准测试环境。
使用方法
研究者可通过PyTorch Geometric、DGL等主流图学习框架直接调用标准化接口加载数据。数据集已预分割为训练、验证与测试集,支持节点分类、回归及链接预测等任务。用户可通过特征矩阵与邻接矩阵的协同处理,结合图卷积网络或注意力机制开展模型验证,所有数据均遵循CC-BY许可确保学术合规使用。
背景与挑战
背景概述
图数据集作为网络科学与机器学习交叉领域的核心资源,其发展历程可追溯至1977年Wayne Zachary构建的空手道俱乐部网络。该领域由斯坦福大学、LINQS实验室等机构推动,聚焦于解决复杂系统中的节点分类、链接预测等核心问题。代表性数据集如Cora、PubMed通过构建学术引用网络,为图神经网络模型提供了结构化知识表示的基础,显著推动了社交网络分析、生物信息学等领域的量化研究进程。
当前挑战
图数据集构建面临双重挑战:在领域问题层面,需解决异质网络中节点表征学习与长程依赖建模的复杂性,如Wikipedia网络中的动态流量预测;在技术实现层面,存在数据稀疏性(如Zachary网络仅34节点)与特征对齐难题,同时需平衡拓扑结构完整性(如Facebook页面的互连关系)与语义特征提取的粒度,这对图嵌入算法的泛化能力提出更高要求。
常用场景
经典使用场景
在复杂网络分析领域,图数据集常被用于节点分类任务,例如Zachary空手道俱乐部网络通过捕捉社团内部成员互动关系,成为社区发现研究的经典范例。Cora和CiteSeer等学术引用网络则通过文献间的引用链接与文本特征,为文档自动分类提供了标准化评估基准。这些数据集通过图神经网络模型,能够有效学习节点嵌入表示,从而实现对未标记节点的类别预测。
衍生相关工作
基于经典图数据集衍生出诸多重要研究成果,如GCN模型在Cora和CiteSeer数据集上验证了半监督节点分类的有效性。GraphSAGE通过Facebook页面网络实现了大规模动态图的归纳学习,而GAT模型则利用注意力机制提升了PubMed网络的表征能力。这些工作不仅推动了图神经网络架构的革新,也为多尺度节点嵌入和异构图学习等新方向奠定了基础。
数据集最近研究
最新研究方向
在复杂网络分析与图神经网络蓬勃发展的背景下,Graph Datasets作为支撑该领域研究的重要基石,近年来聚焦于节点分类与回归任务的前沿探索。以Cora、PubMed等引文网络为代表的数据集正推动异构图神经网络与自监督学习技术的深度融合,通过挖掘多源节点属性和拓扑结构间的复杂关联,显著提升了学术文献自动分类与知识发现的精度。与此同时,Facebook Page-Page等社交网络数据的热度持续攀升,其与虚假信息检测、社群演化预测等社会热点问题的紧密结合,催生了动态图神经网络与可解释性AI的创新研究。这些进展不仅深化了我们对网络结构功能的理解,更为生物医药、社交计算等跨学科领域提供了强大的方法论支撑。
以上内容由遇见数据集搜集并总结生成



