Cora, CiteSeer, PubMed

Name: Cora, CiteSeer, PubMed
Creator: ISP RAS Research Center for Trusted Artificial Intelligence, Moscow Institute of Physics and Technology (National Research University), Ivannikov Institute for System Programming of the Russian Academy of Sciences, Lomonosov Moscow State University, Yandex School of Data Analysis, AIRI
Published: 2025-05-05 19:14:56
License: 暂无描述

arXiv2025-05-05 更新2025-05-13 收录

下载链接：

http://arxiv.org/abs/2505.02566v1

下载链接

链接失效反馈

官方服务：

资源简介：

该论文研究的是图神经网络（GNNs）的鲁棒性和可解释性之间的关系。论文中使用了Cora、CiteSeer和PubMed三个数据集，这些数据集来自引文领域，但未提及具体的数据集条数和访问地址。论文的研究目的是分析各种因素对GNNs可解释性的影响，包括防御机制的鲁棒性增强。

This paper investigates the relationship between robustness and interpretability of Graph Neural Networks (GNNs). Three datasets, namely Cora, CiteSeer and PubMed, were employed in this study, which originate from the citation domain, while no specific information regarding the number of samples or access URLs of these datasets is provided. The research goal of this paper is to analyze the effects of various factors on the interpretability of GNNs, including robustness enhancement via defense mechanisms.

提供机构：

ISP RAS Research Center for Trusted Artificial Intelligence, Moscow Institute of Physics and Technology (National Research University), Ivannikov Institute for System Programming of the Russian Academy of Sciences, Lomonosov Moscow State University, Yandex School of Data Analysis, AIRI

创建时间：

2025-05-05

搜集汇总

数据集介绍

构建方式

Cora、CiteSeer和PubMed数据集作为图神经网络研究领域的经典基准数据集，其构建过程体现了严谨的学术规范。CiteSeer数据集通过爬取学术搜索引擎CiteSeerX的论文引用关系构建，包含3,327篇计算机科学论文的引用网络，节点特征采用词袋模型表示。PubMed数据集则聚焦生物医学领域，从PubMed中央数据库提取19,717篇糖尿病相关论文的语义关系，特征空间采用500维TF-IDF向量。这些数据集在构建时严格遵循学术伦理，通过匿名化处理确保研究者隐私，并采用标准化预处理流程包括文本清洗、特征归一化和图结构验证，最终形成具有明确语义边界的科学文献引用网络。

特点

该系列数据集最显著的特征在于其多层次的学术语义表达。Cora数据集以2,708篇机器学习论文构成细粒度知识网络，1,433维词袋特征精确捕捉学科术语分布。CiteSeer的3,703维特征空间则实现了对计算机科学术语的深度表征，其引文网络包含9,104条具有明确学术影响的语义关联。PubMed数据集独特的医学专业特性体现在88,648条生物医学概念关联上，500维精简特征实现了高效的医学知识表示。三个数据集均具备清晰的类目体系（Cora 7类、CiteSeer 6类、PubMed 3类），其小世界网络特性与幂律分布特征为研究图神经网络的泛化能力提供了理想测试环境。

使用方法

在使用该数据集进行图神经网络研究时，标准流程包含三个关键阶段。首先需采用80/20比例划分训练测试集，保持节点分类任务的评估一致性。特征工程阶段建议对高维词袋特征进行PCA降维处理，同时保留原始特征以支持消融实验。图结构处理可采用Torch-Geometric库提供的标准化接口，支持GCN、GAT等主流架构的直接输入。针对对抗鲁棒性研究，可通过Jaccard相似度阈值（建议0.4）实施边过滤防御，或采用GNNGuard的注意力机制防御层。评估时推荐同步考察分类准确率与解释性指标（Fidelity、Sparsity等），特别注意CiteSeer数据集的类不平衡特性需采用加权F1-score补充评估。

背景与挑战

背景概述

Cora、CiteSeer和PubMed是三个广泛使用的引文网络数据集，由Sen等人于2008年创建，主要用于图神经网络（GNN）的研究。这些数据集由学术论文及其引用关系构成，节点代表论文，边代表引用关系，节点特征通常是论文的词袋表示。这些数据集已成为评估GNN性能的标准基准，尤其在节点分类和链接预测任务中表现出色。它们的影响力不仅限于学术研究，还在推荐系统、社交网络分析等领域产生了深远影响。

当前挑战

这些数据集面临的挑战主要包括两个方面：一是领域问题的挑战，即如何在对抗性攻击（如投毒攻击和规避攻击）下保持模型的鲁棒性和可解释性；二是构建过程中的挑战，包括数据稀疏性、噪声处理以及如何在大规模图上高效计算。此外，现有的可解释性评估指标（如保真度、稳定性、一致性和稀疏性）在面对不同防御机制和架构选择时表现不一，亟需进一步细化和标准化。

常用场景

经典使用场景

Cora、CiteSeer和PubMed作为经典的引文网络数据集，在图神经网络（GNN）研究中扮演着重要角色。这些数据集通常用于评估节点分类任务的性能，其中节点代表学术论文，边代表论文间的引用关系。在对抗鲁棒性与可解释性研究中，它们被用作基准测试平台，用于分析不同防御机制对模型解释结果的影响。例如，研究者通过在这些数据集上施加投毒攻击和逃避攻击，系统评估了GCN、GAT等架构在保持预测准确性的同时生成可信解释的能力。

实际应用

在实际应用中，这些数据集支撑了学术推荐系统和科研知识图谱的开发。基于Cora训练的GNN可自动识别论文研究领域，其解释结果能辅助研究者发现跨学科关联。医疗领域利用PubMed数据集构建的模型可解释性评估框架，帮助医生理解疾病预测模型的决策依据。对抗防御技术的验证结果已被应用于改进学术搜索引擎的异常引用检测，有效识别恶意操纵引用行为，维护学术网络的真实性。

衍生相关工作

围绕这些数据集衍生出多项里程碑式研究：GNNExplainer（Ying et al., 2019）首次提出基于互信息最大化的图解释方法；SubgraphX（Yuan et al., 2021）引入Shapley值量化子图重要性；GNNGuard（Zhang & Zitnik, 2020）则利用该数据集验证了防御性图卷积的有效性。近期工作如ICML 2025基准测试进一步系统化评估了6种GNN架构在对抗环境下的解释质量，推动形成了图可信AI的标准化评估范式。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集