cora_citeseer_pubmed_2_hop_nei_aug

Hugging Face2025-06-01 更新2025-06-02 收录

下载链接：

https://huggingface.co/datasets/Allen-UQ/cora_citeseer_pubmed_2_hop_nei_aug

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含问题、解决方案、数据集名称和分割方式等信息。它被分为训练集、验证集和测试集，分别用于模型的训练、验证和测试。具体来说，训练集包含2171个示例，验证集包含12809个示例，而测试集则包含283269个示例。数据集的总大小为3.99GB，下载大小为1.98GB。

创建时间：

2025-06-01

原始信息汇总

数据集概述

基本信息

数据集名称: Allen-UQ/cora_citeseer_pubmed_2_hop_nei_aug
下载大小: 1,981,661,544 字节
数据集大小: 3,989,624,182 字节

数据集特征

problem: 字符串类型
solution: 字符串类型
dataset: 字符串类型
split: 字符串类型
index_level_0: 整数类型 (int64)

数据集拆分

train
- 样本数量: 2,171
- 数据大小: 20,275,577 字节
validation
- 样本数量: 12,809
- 数据大小: 144,548,673 字节
test
- 样本数量: 283,269
- 数据大小: 3,824,799,932 字节

配置文件

默认配置
- 数据文件路径:
  - train: data/train-*
  - validation: data/validation-*
  - test: data/test-*

搜集汇总

数据集介绍

构建方式

在科学文献网络分析领域，该数据集基于经典引文网络Cora、Citeseer和PubMed构建，采用两跳邻居增强策略扩展原始数据。通过遍历每个节点的直接邻居及其二级关联节点，生成更丰富的上下文信息，最终整合为包含问题-解决方案对的结构化格式。构建过程注重保持网络拓扑特性，确保数据增强后的语义连贯性和逻辑一致性。

特点

该数据集显著特征体现在其大规模多源文献整合，涵盖28万多个测试样本和1.2万验证样本。数据特征包含问题描述、解决方案、来源数据集和分割标识四个核心字段，形成完整的知识表示体系。不同分割集的数据量级差异为模型训练提供了层次化评估基础，特别适合研究文献网络的层次化表示学习。

使用方法

使用该数据集时，研究人员可通过标准数据加载接口直接读取训练、验证和测试分割。典型应用流程包括：首先加载预处理的问题-解决方案对，然后基于图神经网络架构进行节点分类或链接预测任务。验证集可用于超参数调优，测试集则用于评估模型在未见数据上的泛化能力，最终实现科学文献的智能分类与知识发现。

背景与挑战

背景概述

在知识图谱与图神经网络研究领域，cora_citeseer_pubmed_2_hop_nei_aug数据集作为一项重要资源，由学术机构于近年构建，旨在深化对科学文献网络的结构化理解。该数据集聚焦于引文网络中的节点分类与关系推理问题，通过整合Cora、Citeseer和PubMed三大经典引文数据集，并引入二跳邻居增强策略，显著扩展了传统图数据的覆盖范围。其设计不仅推动了图表示学习算法的创新，还为学术文献挖掘、知识发现等应用提供了更丰富的语义关联基础，对智能信息处理领域的发展产生了积极影响。

当前挑战

该数据集致力于解决引文网络中的复杂关系建模挑战，尤其在处理长距离依赖和稀疏连接问题时，传统图神经网络易受局部结构局限性的制约。构建过程中，研究人员需克服多源数据融合的异构性难题，例如不同文献库的元数据规范差异，以及二跳邻居扩展带来的计算复杂度激增。此外，增强后的图结构可能引入噪声边，如何平衡语义相关性与拓扑完整性成为关键挑战。

常用场景

经典使用场景

在知识图谱与图神经网络研究领域，cora_citeseer_pubmed_2_hop_nei_aug数据集通过引入二跳邻居增强策略，为节点分类任务提供了丰富的结构上下文信息。该数据集常用于评估图注意力网络、图卷积网络等模型在引文网络中的表示学习能力，帮助研究者探索局部邻域信息对节点嵌入质量的影响。

解决学术问题

该数据集有效缓解了传统引文网络数据中局部结构信息稀疏的问题，为研究半监督学习下的节点表征优化提供了基准。其增强后的拓扑结构支持对异质性邻居聚合机制的深入分析，推动了图神经网络在长程依赖建模方面的理论突破，对复杂网络中的信息传播研究具有重要启示意义。

衍生相关工作

该数据集的增强范式启发了GraphSAGE等经典算法的邻居采样策略优化，后续研究如GATv2在此基础上改进了注意力系数的动态计算机制。相关成果进一步衍生出混合跳数聚合模型，推动了图Transformer架构在学术图谱中的应用，形成了一系列基于多跳邻居增强的图表示学习工作。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集