five

cora

收藏
github2023-08-02 更新2024-05-31 收录
下载链接:
https://github.com/ryutamatsuno/node-classification-dataset
下载链接
链接失效反馈
官方服务:
资源简介:
用于节点分类任务的数据集,包含加载数据、设置训练和验证节点、访问邻接矩阵、特征和标签等功能。

A dataset designed for node classification tasks, encompassing functionalities such as data loading, setting up training and validation nodes, and accessing adjacency matrices, features, and labels.
创建时间:
2020-01-31
原始信息汇总

数据集概述

数据集名称

Node classification data set.

数据集用途

用于节点分类任务。

数据集组件

  • 节点数量配置:每个类别20个训练节点,总共500个验证节点。
  • 邻接矩阵:提供原始和归一化的邻接矩阵,均为torch.Tensor格式。
  • 特征:节点特征,格式为torch.Tensor
  • 标签:节点标签,格式为torch.Tensor

注意事项

  • 数据集仅包含最大的组件。如需使用整个图,请修改convert_raw_data函数。

许可证

MIT

搜集汇总
数据集介绍
main_image_url
构建方式
Cora数据集是为节点分类任务而构建的,其核心在于从学术文献引用网络中提取关键信息。该数据集通过提取论文之间的引用关系,构建了一个有向图,其中节点代表论文,边代表引用关系。每篇论文的特征向量由词袋模型生成,标签则对应于论文的研究领域。数据集的构建过程中,仅保留了图的最大连通分量,以确保数据的连贯性和实用性。
使用方法
使用Cora数据集时,首先通过`Data.load('cora')`加载数据,并调用`data.print_statisitcs()`查看数据集的基本统计信息。用户可以通过设置`data.split_setting`来定义训练节点和验证节点的数量,默认设置为每类20个训练节点和总计500个验证节点。数据集的邻接矩阵、归一化邻接矩阵、特征矩阵和标签均可通过`data.raw_adj`、`data.norm_adj`、`data.features`和`data.labels`直接访问。需要注意的是,数据集仅包含最大连通分量,若需使用完整图结构,需修改`convert_raw_data`函数。
背景与挑战
背景概述
Cora数据集是图神经网络领域中用于节点分类任务的重要基准数据集之一,广泛应用于学术研究和工业实践中。该数据集由多个研究机构共同创建,最早可追溯到2000年代初,主要用于研究文献引用网络中的节点分类问题。Cora数据集包含2708篇科学论文的引用关系,每篇论文被归类为七个类别之一,其节点特征由论文的词汇表示构成。该数据集不仅推动了图神经网络的发展,还为节点分类、图嵌入等任务提供了标准化的评估平台。
当前挑战
Cora数据集在解决节点分类问题时面临多重挑战。首先,图数据的稀疏性和高维度特征使得模型训练和特征提取变得复杂,如何有效利用邻接矩阵和节点特征成为关键问题。其次,数据集中仅包含最大连通分量,可能导致信息丢失,限制了模型对全局图结构的理解。此外,数据集的划分方式对模型性能影响显著,如何设计合理的训练集和验证集划分策略以提升泛化能力仍需深入研究。构建过程中,数据预处理和特征提取的复杂性也增加了数据集构建的难度。
常用场景
经典使用场景
Cora数据集广泛用于图神经网络(GNN)中的节点分类任务。该数据集包含了科学文献的引用网络,其中节点代表论文,边代表引用关系。通过Cora数据集,研究者可以训练模型以预测每篇论文的类别标签,从而验证图神经网络在处理图结构数据时的性能。
解决学术问题
Cora数据集解决了图结构数据中节点分类的学术研究问题。通过提供标准化的引用网络数据,研究者能够评估不同图神经网络模型在节点分类任务中的表现。该数据集的存在为图神经网络的研究提供了基准,推动了图表示学习领域的发展。
实际应用
在实际应用中,Cora数据集被用于构建学术文献推荐系统。通过分析论文之间的引用关系,系统能够自动推荐相关领域的文献,帮助研究者快速找到与其研究方向相关的资料。此外,该数据集还可用于学术影响力分析,评估论文在学术网络中的重要性。
数据集最近研究
最新研究方向
近年来,Cora数据集在图神经网络(GNN)领域的研究中扮演了重要角色,尤其是在节点分类任务中的应用。随着深度学习技术的不断进步,研究者们开始探索如何通过改进图卷积网络(GCN)和图注意力网络(GAT)等模型,来提升Cora数据集上的分类性能。此外,针对Cora数据集的特性,如稀疏性和高维特征,研究者们还提出了多种正则化方法和特征选择策略,以增强模型的泛化能力。这些研究不仅推动了图神经网络的理论发展,也为实际应用如社交网络分析、推荐系统等提供了有力支持。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作