five

ogbl-collab, ogbl-ppa, ogbl-citation2

收藏
arXiv2023-11-19 更新2024-06-21 收录
下载链接:
https://github.com/Juanhui28/HeaRT
下载链接
链接失效反馈
官方服务:
资源简介:
本研究涉及的数据集主要用于评估图神经网络在链接预测任务中的性能,包括ogbl-collab、ogbl-ppa和ogbl-citation2。这些数据集用于评估新模型的有效性,并揭示了当前评估方法中存在的多个陷阱,如基准性能低于实际、缺乏统一的数据分割和评估指标、使用不切实际的评估设置等。研究通过实施公平比较和创建更实际的评估设置,推动了链接预测领域的挑战和机遇,使其更符合现实世界的情况。

The datasets involved in this study are primarily used to evaluate the performance of graph neural networks (GNNs) on link prediction tasks, including ogbl-collab, ogbl-ppa, and ogbl-citation2. These datasets serve to evaluate the efficacy of novel models, and they uncover several pitfalls in current link prediction evaluation workflows, including baseline performance lower than real-world actual levels, lack of unified data splits and evaluation metrics, and employment of unrealistic evaluation settings, among others. By conducting fair comparative studies and establishing more realistic evaluation setups, this study advances the challenges and opportunities in the link prediction field, making the domain more consistent with real-world practical scenarios.
提供机构:
密歇根州立大学
创建时间:
2023-06-18
搜集汇总
数据集介绍
main_image_url
构建方式
在链接预测研究领域,ogbl-collab、ogbl-ppa与ogbl-citation2数据集作为Open Graph Benchmark(OGB)的核心组成部分,其构建过程体现了严谨的学术规范。这些数据集均源自真实世界的网络结构,例如学术合作、蛋白质相互作用及文献引用关系,通过精心设计的时序划分或结构分割策略,将原始图数据划分为训练、验证与测试子集。特别地,ogbl-collab采用动态时序划分,以年份为界分离协作关系;ogbl-ppa基于生物网络的结构特性进行分割;ogbl-citation2则依据文献引用网络的时间演化逻辑构建。每个数据集的划分均严格遵循可复现原则,确保了评估过程的公平性与一致性。
特点
该系列数据集展现出多维度显著特征。在规模层面,ogbl-citation2包含近三百万节点与三千万边,构成大规模异质图;ogbl-ppa以高平均节点度(105.25)体现生物网络的稠密特性;ogbl-collab则呈现动态演化特征。结构复杂性方面,数据集涵盖从社交合作网络到生物分子交互的多元领域,其边分布与社区结构各具特色。评估维度上,数据集支持Hits@K、MRR及AUC等多重指标,并针对不同场景优化负采样策略。尤为重要的是,这些数据集通过统一的数据划分与评估协议,解决了以往研究中存在的指标不一致与数据分割混乱问题,为链接预测模型提供了稳健的基准测试环境。
使用方法
使用该数据集时,需遵循系统化评估流程。首先加载标准化数据分割,其中训练集用于模型参数学习,验证集进行超参数调优,测试集用于最终性能评估。在模型训练阶段,建议采用均匀负采样策略生成负样本对。评估过程中,需严格区分现有评估设置与HeaRT新评估框架:现有设置采用全局固定负样本集,而HeaRT框架则通过启发式相关采样技术,为每个正样本生成个性化难负样本。实验时应记录Hits@K、MRR等排序指标,并注意ogbl-collab数据集中验证边在测试阶段的特殊包含规则。最终结果需通过多次随机种子实验计算均值与标准差,以确保结论的统计可靠性。
背景与挑战
背景概述
ogbl-collab、ogbl-ppa与ogbl-citation2作为开放图基准(OGB)中的关键数据集,由密歇根州立大学、伦斯勒理工学院、Snap公司及百度等机构的研究团队于2023年联合构建,旨在系统评估图神经网络在链接预测任务中的性能。这些数据集覆盖学术合作、蛋白质交互与文献引用等多元领域,其核心研究问题聚焦于如何基于图结构与节点特征,精准预测未观测边的存在性。通过提供大规模、结构化的真实世界图数据,该系列数据集推动了链接预测方法从传统启发式算法向深度学习模型的演进,并为模型公平比较与性能优化奠定了实证基础。
当前挑战
该数据集面临的挑战主要体现在两方面:其一,在解决链接预测领域问题时,现有评估设置存在显著缺陷,包括使用全局随机负采样导致负样本与正样本关联性弱,使得分类任务过于简单,无法反映真实场景中节点对间的复杂关系;同时,评估指标(如AUC与排序指标)的不一致性与高方差模型表现,进一步阻碍了模型间的可靠比较。其二,在数据集构建过程中,需克服大规模图数据处理的计算复杂性,确保动态图(如ogbl-collab)的时间一致性,并在负采样设计中平衡个性化需求与计算效率,以避免引入评估偏差。
常用场景
经典使用场景
在社交网络分析与推荐系统领域,ogbl-collab、ogbl-ppa和ogbl-citation2数据集常被用于评估图神经网络在链接预测任务中的性能。这些数据集分别模拟了学术合作网络、蛋白质相互作用网络和学术引用网络,为研究者提供了结构复杂且规模各异的图数据环境。通过在这些数据集上训练和测试模型,研究者能够深入探究节点间潜在连接的生成机制,从而推动链接预测算法的创新与优化。
衍生相关工作
围绕这些数据集,学术界衍生出诸多经典研究工作。例如,Neo-GNN模型通过显式建模邻域重叠模式,在ogbl-collab数据集上取得了显著性能提升;NCN系列方法创新性地融合了共同邻居信息与图神经网络,在多个数据集上展现出优越的预测能力;BUDDY等基于子图草图的方法则通过高效的结构特征提取,为大规模图上的链接预测提供了新思路。这些工作共同推动了图表示学习领域的理论发展与技术演进。
数据集最近研究
最新研究方向
在链接预测领域,ogbl-collab、ogbl-ppa和ogbl-citation2等数据集正推动着图神经网络评估范式的革新。当前研究聚焦于克服现有评估中的三大陷阱:模型性能的低估、数据分割与评估指标的不统一,以及基于简单负样本的非现实评估设置。前沿工作通过引入启发式相关采样技术,构建了更贴近实际场景的硬负样本评估框架,显著提升了模型比较的可靠性与挑战性。这一进展不仅揭示了传统方法在复杂图结构中的局限性,还促进了面向动态网络与大规模异质图的算法优化,为社交网络分析、生物信息学等应用奠定了更坚实的理论基础。
相关研究论文
  • 1
    Evaluating Graph Neural Networks for Link Prediction: Current Pitfalls and New Benchmarking密歇根州立大学 · 2023年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作