cora

github2023-08-02 更新2024-05-31 收录

下载链接：

https://github.com/ryutamatsuno/node-classification-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

用于节点分类任务的数据集，包含加载数据、设置训练和验证节点、访问邻接矩阵、特征和标签等功能。

A dataset designed for node classification tasks, encompassing functionalities such as data loading, setting up training and validation nodes, and accessing adjacency matrices, features, and labels.

创建时间：

2020-01-31

原始信息汇总

数据集概述

数据集名称

Node classification data set.

数据集用途

用于节点分类任务。

数据集组件

节点数量配置：每个类别20个训练节点，总共500个验证节点。
邻接矩阵：提供原始和归一化的邻接矩阵，均为torch.Tensor格式。
特征：节点特征，格式为torch.Tensor。
标签：节点标签，格式为torch.Tensor。

注意事项

数据集仅包含最大的组件。如需使用整个图，请修改convert_raw_data函数。

许可证

MIT

搜集汇总

数据集介绍

构建方式

Cora数据集是为节点分类任务而构建的，其核心在于从学术文献引用网络中提取关键信息。该数据集通过提取论文之间的引用关系，构建了一个有向图，其中节点代表论文，边代表引用关系。每篇论文的特征向量由词袋模型生成，标签则对应于论文的研究领域。数据集的构建过程中，仅保留了图的最大连通分量，以确保数据的连贯性和实用性。

使用方法

使用Cora数据集时，首先通过`Data.load('cora')`加载数据，并调用`data.print_statisitcs()`查看数据集的基本统计信息。用户可以通过设置`data.split_setting`来定义训练节点和验证节点的数量，默认设置为每类20个训练节点和总计500个验证节点。数据集的邻接矩阵、归一化邻接矩阵、特征矩阵和标签均可通过`data.raw_adj`、`data.norm_adj`、`data.features`和`data.labels`直接访问。需要注意的是，数据集仅包含最大连通分量，若需使用完整图结构，需修改`convert_raw_data`函数。

背景与挑战

背景概述

Cora数据集是图神经网络领域中用于节点分类任务的重要基准数据集之一，广泛应用于学术研究和工业实践中。该数据集由多个研究机构共同创建，最早可追溯到2000年代初，主要用于研究文献引用网络中的节点分类问题。Cora数据集包含2708篇科学论文的引用关系，每篇论文被归类为七个类别之一，其节点特征由论文的词汇表示构成。该数据集不仅推动了图神经网络的发展，还为节点分类、图嵌入等任务提供了标准化的评估平台。

当前挑战

Cora数据集在解决节点分类问题时面临多重挑战。首先，图数据的稀疏性和高维度特征使得模型训练和特征提取变得复杂，如何有效利用邻接矩阵和节点特征成为关键问题。其次，数据集中仅包含最大连通分量，可能导致信息丢失，限制了模型对全局图结构的理解。此外，数据集的划分方式对模型性能影响显著，如何设计合理的训练集和验证集划分策略以提升泛化能力仍需深入研究。构建过程中，数据预处理和特征提取的复杂性也增加了数据集构建的难度。

常用场景

经典使用场景

Cora数据集广泛用于图神经网络（GNN）中的节点分类任务。该数据集包含了科学文献的引用网络，其中节点代表论文，边代表引用关系。通过Cora数据集，研究者可以训练模型以预测每篇论文的类别标签，从而验证图神经网络在处理图结构数据时的性能。

解决学术问题

Cora数据集解决了图结构数据中节点分类的学术研究问题。通过提供标准化的引用网络数据，研究者能够评估不同图神经网络模型在节点分类任务中的表现。该数据集的存在为图神经网络的研究提供了基准，推动了图表示学习领域的发展。

实际应用

在实际应用中，Cora数据集被用于构建学术文献推荐系统。通过分析论文之间的引用关系，系统能够自动推荐相关领域的文献，帮助研究者快速找到与其研究方向相关的资料。此外，该数据集还可用于学术影响力分析，评估论文在学术网络中的重要性。

数据集最近研究