cora_citeseer_pubmed_2_hop_nei_aug
收藏Hugging Face2025-06-01 更新2025-06-02 收录
下载链接:
https://huggingface.co/datasets/Allen-UQ/cora_citeseer_pubmed_2_hop_nei_aug
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含问题、解决方案、数据集名称和分割方式等信息。它被分为训练集、验证集和测试集,分别用于模型的训练、验证和测试。具体来说,训练集包含2171个示例,验证集包含12809个示例,而测试集则包含283269个示例。数据集的总大小为3.99GB,下载大小为1.98GB。
创建时间:
2025-06-01
原始信息汇总
数据集概述
基本信息
- 数据集名称: Allen-UQ/cora_citeseer_pubmed_2_hop_nei_aug
- 下载大小: 1,981,661,544 字节
- 数据集大小: 3,989,624,182 字节
数据集特征
- problem: 字符串类型
- solution: 字符串类型
- dataset: 字符串类型
- split: 字符串类型
- index_level_0: 整数类型 (int64)
数据集拆分
- train
- 样本数量: 2,171
- 数据大小: 20,275,577 字节
- validation
- 样本数量: 12,809
- 数据大小: 144,548,673 字节
- test
- 样本数量: 283,269
- 数据大小: 3,824,799,932 字节
配置文件
- 默认配置
- 数据文件路径:
- train:
data/train-* - validation:
data/validation-* - test:
data/test-*
- train:
- 数据文件路径:
搜集汇总
数据集介绍

构建方式
在科学文献网络分析领域,该数据集基于经典引文网络Cora、Citeseer和PubMed构建,采用两跳邻居增强策略扩展原始数据。通过遍历每个节点的直接邻居及其二级关联节点,生成更丰富的上下文信息,最终整合为包含问题-解决方案对的结构化格式。构建过程注重保持网络拓扑特性,确保数据增强后的语义连贯性和逻辑一致性。
特点
该数据集显著特征体现在其大规模多源文献整合,涵盖28万多个测试样本和1.2万验证样本。数据特征包含问题描述、解决方案、来源数据集和分割标识四个核心字段,形成完整的知识表示体系。不同分割集的数据量级差异为模型训练提供了层次化评估基础,特别适合研究文献网络的层次化表示学习。
使用方法
使用该数据集时,研究人员可通过标准数据加载接口直接读取训练、验证和测试分割。典型应用流程包括:首先加载预处理的问题-解决方案对,然后基于图神经网络架构进行节点分类或链接预测任务。验证集可用于超参数调优,测试集则用于评估模型在未见数据上的泛化能力,最终实现科学文献的智能分类与知识发现。
背景与挑战
背景概述
在知识图谱与图神经网络研究领域,cora_citeseer_pubmed_2_hop_nei_aug数据集作为一项重要资源,由学术机构于近年构建,旨在深化对科学文献网络的结构化理解。该数据集聚焦于引文网络中的节点分类与关系推理问题,通过整合Cora、Citeseer和PubMed三大经典引文数据集,并引入二跳邻居增强策略,显著扩展了传统图数据的覆盖范围。其设计不仅推动了图表示学习算法的创新,还为学术文献挖掘、知识发现等应用提供了更丰富的语义关联基础,对智能信息处理领域的发展产生了积极影响。
当前挑战
该数据集致力于解决引文网络中的复杂关系建模挑战,尤其在处理长距离依赖和稀疏连接问题时,传统图神经网络易受局部结构局限性的制约。构建过程中,研究人员需克服多源数据融合的异构性难题,例如不同文献库的元数据规范差异,以及二跳邻居扩展带来的计算复杂度激增。此外,增强后的图结构可能引入噪声边,如何平衡语义相关性与拓扑完整性成为关键挑战。
常用场景
经典使用场景
在知识图谱与图神经网络研究领域,cora_citeseer_pubmed_2_hop_nei_aug数据集通过引入二跳邻居增强策略,为节点分类任务提供了丰富的结构上下文信息。该数据集常用于评估图注意力网络、图卷积网络等模型在引文网络中的表示学习能力,帮助研究者探索局部邻域信息对节点嵌入质量的影响。
解决学术问题
该数据集有效缓解了传统引文网络数据中局部结构信息稀疏的问题,为研究半监督学习下的节点表征优化提供了基准。其增强后的拓扑结构支持对异质性邻居聚合机制的深入分析,推动了图神经网络在长程依赖建模方面的理论突破,对复杂网络中的信息传播研究具有重要启示意义。
衍生相关工作
该数据集的增强范式启发了GraphSAGE等经典算法的邻居采样策略优化,后续研究如GATv2在此基础上改进了注意力系数的动态计算机制。相关成果进一步衍生出混合跳数聚合模型,推动了图Transformer架构在学术图谱中的应用,形成了一系列基于多跳邻居增强的图表示学习工作。
以上内容由遇见数据集搜集并总结生成



