Cora

OpenDataLab2026-03-29 更新2024-05-09 收录

下载链接：

https://opendatalab.org.cn/OpenDataLab/Cora

下载链接

链接失效反馈

资源简介：

Cora 数据集包含 2,708 份科学出版物，分为 7 个类别。引文网络由 5,429 个链接组成。每个出版物都由一个 0/1 二进制标签描述，该标签指示字典中相应单词的缺失/存在，该字典由 1,433 个唯一单词组成。

The Cora dataset consists of 2,708 scientific publications categorized into 7 classes. The citation network is composed of 5,429 links. Each publication is described by a 0/1 binary label, which indicates the absence or presence of the corresponding word in a vocabulary consisting of 1,433 unique words.

提供机构：

OpenDataLab

创建时间：

2022-03-17

AI搜集汇总

数据集介绍

构建方式

Cora数据集源自于对学术论文的分类任务，其构建过程涉及对机器学习领域的论文进行标注。具体而言，数据集收集了来自Cora数据库的论文摘要，并通过人工标注的方式将每篇论文分配到一个特定的研究领域类别中。这一过程确保了数据集的高质量与准确性，为后续的机器学习算法提供了可靠的基础。

特点

Cora数据集以其独特的图结构特征著称，每篇论文不仅包含文本信息，还通过引用关系与其他论文形成连接。这种结构化的数据形式使得Cora成为图神经网络（GNN）研究的理想选择。此外，数据集的类别分布均衡，涵盖了七个主要的机器学习子领域，为多分类任务提供了丰富的训练样本。

使用方法

Cora数据集主要用于图分类和节点分类任务。研究者可以通过加载数据集中的图结构和节点特征，训练图神经网络模型以预测论文的类别。此外，Cora还可以用于评估不同图嵌入技术和图算法的性能。使用时，建议先进行数据预处理，如文本向量化和图结构的标准化，以确保模型训练的有效性。

背景与挑战

背景概述

Cora数据集，由McCallum等人于2000年创建，是文本分类领域的重要基准数据集。该数据集由计算机科学领域的学术论文组成，每篇论文被标记为七个类别之一，如'人工智能'或'数据库'。Cora的核心研究问题在于探索如何利用图结构数据进行有效的文本分类，这一问题在信息检索和机器学习领域具有深远影响。通过提供一个结构化的文本数据集，Cora促进了图神经网络和半监督学习方法的发展，为相关研究提供了坚实的基础。

当前挑战

Cora数据集在解决文本分类问题时面临多重挑战。首先，数据集的稀疏性问题显著，许多论文仅与少数其他论文相关联，这增加了模型学习的难度。其次，类别不平衡问题也较为突出，某些类别如'人工智能'的论文数量远多于其他类别，导致分类器在训练时可能偏向于这些大类。此外，构建过程中，如何准确地从学术论文中提取特征并构建图结构，也是一个技术上的挑战。这些挑战共同推动了数据预处理和模型优化技术的发展。

发展历史

创建时间与更新

Cora数据集最初于2000年由McCallum等人创建，用于研究文本分类和信息检索。该数据集在2008年由Sen等人进行了更新，增加了更多的文档和类别，以适应不断发展的研究需求。

重要里程碑

Cora数据集的一个重要里程碑是其在图神经网络（GNN）领域的应用。2016年，Kipf和Welling在其论文中首次将Cora数据集用于图卷积网络（GCN）的实验，这一研究极大地推动了图神经网络的发展，并为后续的图数据处理研究提供了基准。此外，Cora数据集还被广泛应用于半监督学习和节点分类任务中，成为该领域的重要参考数据集。

当前发展情况

当前，Cora数据集已成为图神经网络和半监督学习领域的标准基准数据集之一。随着深度学习技术的不断进步，Cora数据集的应用范围也在不断扩展，涉及更多的复杂图结构和多模态数据处理。研究者们利用Cora数据集进行各种创新实验，推动了图数据分析和机器学习技术的融合发展。Cora数据集的持续更新和广泛应用，为相关领域的研究提供了坚实的基础和丰富的资源。

发展历程

Cora数据集首次发表，作为机器学习和数据挖掘领域的基准数据集，用于评估分类算法在图结构数据上的性能。
2000年
Cora数据集首次应用于图神经网络（GNN）的研究中，标志着其在深度学习领域的应用开始。
2008年
Cora数据集在图卷积网络（GCN）的研究中得到广泛应用，成为图神经网络模型性能评估的重要基准。
2016年
Cora数据集被用于验证多种新型图神经网络架构的有效性，进一步巩固了其在图神经网络研究中的地位。
2019年

常用场景

经典使用场景

在图神经网络领域，Cora数据集被广泛用于节点分类任务。该数据集包含2708篇机器学习领域的论文，每篇论文被标记为一个类别，并且通过引用关系形成一个图结构。研究者利用Cora数据集进行图卷积网络（GCN）的训练和评估，通过学习节点特征和图结构信息，实现对未标记节点的准确分类。这一经典场景不仅推动了图神经网络的发展，也为后续研究提供了基准数据集。

衍生相关工作

基于Cora数据集，研究者们开发了多种图神经网络模型和算法，推动了该领域的快速发展。例如，Kipf和Welling提出的图卷积网络（GCN）首次在Cora数据集上展示了其在节点分类任务中的优越性能。随后，许多研究工作如GraphSAGE、GAT等，均以Cora数据集为基准进行模型验证和性能比较。这些工作不仅丰富了图神经网络的理论体系，也为实际应用提供了多样化的解决方案。

数据集最近研究