Cora, Citeseer, Pubmed

github2022-11-21 更新2024-05-31 收录

下载链接：

https://github.com/ycq091044/GCN-Oversmooth

下载链接

链接失效反馈

官方服务：

资源简介：

用于Revisiting Over-smoothing in Deep GCNs研究的数据集，包括Cora, Citeseer, Pubmed三个数据集，用于支持深度图卷积网络中的过度平滑问题研究。

本数据集旨在支持对深度图卷积网络中过度平滑现象的研究，其中包含Cora、Citeseer及Pubmed三个数据集。

创建时间：

2022-11-15

原始信息汇总

数据集概述

数据集内容

data/
- 包含Cora, Citeseer, Pubmed数据集。

数据集用途

Karate_Demo.ipynb
- 用于Figure 1的数据、模型和可视化代码。
Karate_Demo2.ipynb
- 用于Figure 2的数据、模型和可视化代码。
mean-subtraction/
- 用于Experiment Section 5.2的代码，包括训练和结果可视化。
neighbor-aggregation-weight/
- 用于Experiment Section 5.3的代码，包括训练和结果可视化。
performace-depth-oversmooth/
- 用于Experiment Section 5.1 Part-I的代码，包括训练和结果可视化。
performace-depth2-loss-function/
- 用于Experiment Section 5.1 Part-II的代码，包括训练和结果可视化。

数据集操作指南

对于每个实验部分，用户需创建相应的数据集文件夹（如Cora, Citeseer, Pubmed）。
运行相应的训练脚本（如train.py或train2.py）进行实验。
将结果移动到Result-and-Vis文件夹，并运行相应的可视化脚本生成图表。

数据集结果

已包含Cora, Citeseer, Pubmed的实验结果，用户可选择重现。

联系方式

如有疑问，请联系chaoqiy2@illinois.edu。

搜集汇总

数据集介绍

构建方式

Cora、Citeseer和Pubmed数据集的构建源于学术文献引用网络的研究需求。这些数据集通过提取论文之间的引用关系，构建了节点表示论文、边表示引用关系的图结构。具体而言，Cora数据集聚焦于机器学习领域的论文，Citeseer涵盖计算机科学领域的文献，而Pubmed则涉及生物医学领域的论文。每个数据集均包含论文的文本特征和引用关系，形成了标准的图神经网络（GCN）实验基准。

特点

Cora、Citeseer和Pubmed数据集的特点在于其高度结构化的图数据形式。每个数据集均包含节点特征矩阵和邻接矩阵，节点特征由论文的文本信息（如词袋模型或TF-IDF向量）表示，邻接矩阵则捕捉了论文之间的引用关系。这些数据集规模适中，适用于验证图神经网络模型的性能，尤其是在节点分类任务中表现出色。此外，数据集的引用网络具有稀疏性和小世界特性，为研究图神经网络的过平滑现象提供了理想实验环境。

使用方法

使用Cora、Citeseer和Pubmed数据集时，通常需先通过命令行工具创建相应的结果文件夹，随后运行训练脚本（如`train.py`或`train2.py`）进行模型训练。训练过程中，用户可通过调整超参数（如学习率、层数等）优化模型性能。训练完成后，结果文件夹中的数据可用于可视化分析，例如运行`mean-subtraction-vis.ipynb`或`overfitting-vis.ipynb`生成实验图表。这些数据集支持多轮实验，用户可通过重复训练和验证，确保结果的稳定性和可复现性。

背景与挑战

背景概述

Cora、Citeseer和Pubmed是图神经网络（GCN）研究领域中广泛使用的基准数据集，主要用于节点分类任务。这些数据集由学术论文引用网络构成，节点代表论文，边代表引用关系。Cora和Citeseer数据集分别于2000年左右由McCallum等人和Sen等人提出，而Pubmed数据集则稍晚发布，专注于生物医学领域的文献引用网络。这些数据集的创建旨在为图神经网络的研究提供标准化的评估平台，推动了图神经网络在节点分类、链接预测等任务中的应用与发展。近年来，随着深度学习技术的进步，这些数据集在探索图神经网络的深度、过平滑问题等方面发挥了重要作用。

当前挑战

Cora、Citeseer和Pubmed数据集在应用过程中面临多重挑战。首先，图神经网络的深度增加会导致过平滑问题，即节点特征在多层传播后趋于相似，从而降低模型的分类性能。其次，这些数据集的规模相对较小，限制了模型在大规模图数据上的泛化能力。此外，数据集的构建过程中，如何准确提取和标注节点特征以及处理稀疏的引用关系也是一大挑战。最后，尽管这些数据集在节点分类任务中表现优异，但其在更复杂的图任务（如图生成和图匹配）中的适用性仍需进一步验证。这些挑战促使研究者不断改进图神经网络的结构和训练方法，以提升其在实际应用中的性能。

常用场景

经典使用场景

Cora、Citeseer和Pubmed数据集在深度学习领域，尤其是图卷积网络（GCN）的研究中，被广泛用于节点分类任务。这些数据集包含了学术论文的引用网络，节点代表论文，边代表引用关系，节点特征通常为论文的文本信息。研究者通过这些数据集验证GCN模型在处理图结构数据时的性能，特别是在处理高维稀疏数据时的表现。

衍生相关工作

基于Cora、Citeseer和Pubmed数据集，许多经典的研究工作得以展开。例如，Yang等人提出的《Revisiting Over-smoothing in Deep GCNs》通过实验验证了GCN在不同深度下的过平滑现象，并提出了有效的解决方案。此外，这些数据集还催生了一系列关于图神经网络优化和扩展的研究，推动了图神经网络在学术和工业界的广泛应用。

数据集最近研究