five

cora, citeseer

收藏
github2023-03-23 更新2024-05-31 收录
下载链接:
https://github.com/djsaber/Keras-GraphSAGE
下载链接
链接失效反馈
官方服务:
资源简介:
cora:包含2708篇科学出版物网络,共有5429条边,总共7种类别。数据集中的每个出版物都由一个 0/1 值的词向量描述,表示字典中相应词的缺失/存在。该词典由 1433 个独特的词组成。<br />citeseer:包含3312个节点,4723条边构成的引文网络。标签共6个类别。数据集的特征维度是3703维。

cora: This dataset comprises a network of 2,708 scientific publications, interconnected by 5,429 edges, and categorized into 7 distinct classes. Each publication within the dataset is represented by a binary word vector (0/1 values), indicating the absence or presence of corresponding words from a dictionary. This dictionary consists of 1,433 unique words.<br />citeseer: This dataset features a citation network with 3,312 nodes and 4,723 edges. It is labeled across 6 categories. The feature dimension of the dataset is 3,703.
创建时间:
2023-03-22
原始信息汇总

数据集概述

数据集名称

  • cora
  • citeseer

数据集描述

  • cora: 包含2708篇科学出版物网络,共有5429条边,总共7种类别。每个出版物由一个0/1值的词向量描述,词典由1433个独特的词组成。
  • citeseer: 包含3312个节点,4723条边构成的引文网络。标签共6个类别,数据集的特征维度是3703维。

数据集用途

用于训练GraphSAGE模型,进行节点分类测试。

数据集存储位置

  • 数据集文件解压至项目内目录的/datasets文件夹。
搜集汇总
数据集介绍
main_image_url
构建方式
Cora和Citeseer数据集是图神经网络领域中广泛使用的基准数据集,主要用于节点分类任务。Cora数据集构建于科学出版物网络,包含2708个节点和5429条边,每个节点代表一篇科学文献,边表示文献之间的引用关系。Citeseer数据集则构建于引文网络,包含3312个节点和4723条边,节点代表科学文献,边表示文献之间的引用关系。两个数据集均通过提取文献的文本特征,将其转化为0/1值的词向量,分别使用1433维和3703维的特征向量表示节点。
使用方法
Cora和Citeseer数据集通常用于图神经网络模型的训练和评估,特别是GraphSAGE等基于邻居采样的模型。使用这些数据集时,首先需要将数据集文件解压至指定目录,随后通过图神经网络框架(如Keras)加载数据并进行预处理。在训练过程中,模型通过采样和聚合节点及其邻居的信息,逐步学习节点的特征表示,最终完成节点分类任务。训练完成后,模型权重可保存至指定目录,以便后续加载和测试。
背景与挑战
背景概述
Cora和Citeseer数据集是图神经网络(Graph Neural Network, GNN)领域中的经典基准数据集,广泛应用于节点分类任务的研究。Cora数据集由2708篇科学出版物构成,涵盖7个类别,每篇出版物通过1433维的词向量表示。Citeseer数据集则包含3312个节点和4723条边,特征维度为3703维,标签分为6个类别。这两个数据集自2000年代初被引入以来,已成为评估图神经网络算法性能的重要工具,尤其是在GraphSAGE等算法的研究中,它们为验证模型的有效性提供了坚实的基础。
当前挑战
Cora和Citeseer数据集在应用过程中面临多重挑战。首先,节点分类任务需要模型能够有效捕捉图结构中的局部和全局信息,这对算法的表达能力提出了较高要求。其次,数据集的稀疏性和高维特征增加了模型训练的难度,尤其是在处理大规模图数据时,计算复杂度显著上升。此外,GraphSAGE等算法在构建过程中需解决邻居采样和特征聚合的优化问题,如何在保证模型性能的同时降低计算开销是一个关键挑战。最后,数据集的标签不平衡问题也可能影响模型的泛化能力,需要设计有效的策略加以应对。
常用场景
经典使用场景
在学术研究领域,Cora和Citeseer数据集常被用于图神经网络(GNN)的节点分类任务。这些数据集通过模拟科学出版物之间的引用关系,提供了一个理想的实验平台,用于验证和比较不同图神经网络算法的性能。特别是在GraphSAGE等模型的训练过程中,这些数据集能够有效地展示模型在处理图结构数据时的表现。
解决学术问题
Cora和Citeseer数据集解决了图神经网络在节点分类任务中的关键问题。传统的图卷积网络(GCN)在处理大规模图数据时,往往需要全局图结构信息,这限制了其应用范围。GraphSAGE通过引入采样和聚合机制,能够在不需要全局图结构的情况下,有效地利用局部邻域信息进行节点分类,从而提高了模型的泛化能力和计算效率。
实际应用
在实际应用中,Cora和Citeseer数据集被广泛用于推荐系统、社交网络分析和知识图谱构建等领域。例如,在推荐系统中,这些数据集可以帮助模型理解用户与物品之间的复杂关系,从而提供更精准的推荐。在社交网络分析中,它们可以用于识别社区结构和关键节点,为网络优化提供支持。
数据集最近研究
最新研究方向
近年来,随着图神经网络(GNN)技术的快速发展,GraphSAGE作为一种重要的图嵌入方法,在节点分类任务中展现出显著的优势。特别是在cora和citeseer等引文网络数据集上的应用,GraphSAGE通过采样和聚合机制,能够有效处理大规模图数据中的节点特征。当前的研究热点主要集中在优化聚合函数的设计,以提升模型的泛化能力和计算效率。例如,研究者们正在探索如何结合注意力机制或自适应采样策略,以更好地捕捉节点间的复杂关系。此外,GraphSAGE在跨领域知识图谱构建、社交网络分析等场景中的应用也备受关注,推动了图神经网络在实际问题中的广泛应用。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作