非同质性大型图数据集

Name: 非同质性大型图数据集
Creator: 康奈尔大学
Published: 2021-10-27 22:02:41
License: 暂无描述

arXiv2021-10-27 更新2024-06-21 收录

下载链接：

https://github.com/CUAI/Non-Homophily-Large-Scale

下载链接

链接失效反馈

官方服务：

资源简介：

本研究收集了一系列大型非同质性图数据集，用于图机器学习评估。这些数据集涵盖了从在线社交网络到引文网络等多个应用领域，具有比以往数据集更多的节点和边。例如，Penn94数据集用于预测用户性别，而arXiv-year数据集则用于预测论文发表年份。这些数据集不仅规模更大，而且应用领域更广，能够捕捉到不同类型的复杂标签-拓扑关系。通过这些数据集，研究者们进行了广泛的实验，比较了14种图学习方法和3种图小批量技术，展示了LINKX模型在非同质性图学习中的优越性能。

This study collects a series of large-scale heterophilic graph datasets for graph machine learning evaluation. These datasets cover multiple application domains ranging from online social networks to citation networks, and contain more nodes and edges than previous datasets. For example, the Penn94 dataset is used for user gender prediction, while the arXiv-year dataset is designed for paper publication year prediction. These datasets not only have larger scales and wider application scopes, but also can capture complex label-topology relationships of various types. Using these datasets, researchers have conducted extensive experiments, compared 14 graph learning methods and 3 graph mini-batch techniques, and demonstrated the superior performance of the LINKX model in heterophilic graph learning.

提供机构：

康奈尔大学

创建时间：

2021-10-27

搜集汇总

数据集介绍

构建方式

在非同质性图学习领域，现有数据集普遍规模较小且应用领域有限，难以支撑大规模图神经网络的有效评估。为此，本研究从多个实际应用场景中系统性地收集并构建了一系列大规模非同质性图数据集，涵盖在线社交网络、学术引用网络及百科页面链接等多种复杂场景。数据集的构建过程包括对原始图结构的提取、节点特征的重新定义以及分类任务的精心设计，例如在Pokec和genius等社交网络中引入用户属性特征，在arXiv-year和snap-patents等引用网络中设定基于时间的节点标签。此外，通过爬取并清洗Wikipedia页面链接数据，构建了包含近200万节点和超过3亿条边的大型wiki数据集，进一步扩展了数据集的规模和多样性。

特点

本数据集的核心特点在于其显著的非同质性结构，即相连节点在标签上往往不具备相似性，这与传统同质性图数据形成鲜明对比。数据集的规模远超以往同类基准，最大节点数和边数分别达到先前数据集的384倍和1398倍，覆盖了社交网络中的性别预测、引用网络中的时间分类以及页面访问量预测等多种任务类型。此外，数据集引入了改进的同质性度量指标ĥ，能够更准确地刻画标签与拓扑结构之间的复杂关系，避免因类别不平衡或类别数量差异导致的偏差。这些特点共同为评估和开发面向大规模非同质性图的机器学习方法提供了坚实且多样化的实验基础。

使用方法

该数据集适用于图表示学习方法的评估与比较，尤其专注于非同质性场景下的节点分类任务。使用时，可采用标准的训练、验证和测试分割比例，例如50/25/25的随机划分，以确保评估的稳定性和可重复性。对于大规模数据集如wiki，建议采用高效的迷你批处理技术，例如基于节点的独立同分布采样，以避免内存溢出并提升训练效率。数据集中已包含节点特征、邻接矩阵及节点标签，可直接输入各类图神经网络模型进行训练和测试。同时，数据集的多样性和规模使其成为检验方法可扩展性和泛化能力的理想平台，尤其适合探索那些能够有效融合节点特征与拓扑结构的新型模型，如论文中提出的LINKX方法。

背景与挑战

背景概述

非同质性大型图数据集由康奈尔大学与Facebook AI的研究团队于2021年提出，旨在解决图机器学习领域长期存在的同质性偏差问题。传统图神经网络（GNN）通常假设图中相连节点具有相似标签，即同质性假设，然而现实世界中的诸多应用场景，如社交网络中的恶意用户检测、学术引用网络中的时间预测等，往往表现出非同性连接模式。该数据集涵盖了社交网络、学术引用、专利数据及维基百科链接等多个领域，其规模远超先前非同性数据集，最大节点数达192万，边数超过30亿，为大规模非同性图学习提供了关键基准。

当前挑战

该数据集主要面临两大挑战：其一，在领域问题层面，非同性图结构使得传统基于同质性假设的图神经网络方法，如标签传播、低通滤波及现有图采样技术，在节点分类任务中表现显著退化，亟需开发能够有效捕捉复杂标签-拓扑关系的新型算法。其二，在构建过程中，数据集的收集与标注需克服规模庞大带来的计算与存储压力，同时需设计合理的同质性度量指标以准确区分多样化的非同性模式，并确保节点特征与标签在不同应用场景中的一致性与可解释性。

常用场景

经典使用场景

在异质图学习领域，非同质性大型图数据集为评估图神经网络在非齐次拓扑结构下的性能提供了关键基准。该数据集广泛应用于节点分类任务，尤其针对社交网络中的性别预测、学术文献的发表年份推断以及在线平台用户行为分析等场景。通过引入多样化的应用领域和大规模图结构，该数据集有效支撑了模型在复杂标签-拓扑关系下的泛化能力验证，成为异质图机器学习方法开发与比较的核心实验平台。

解决学术问题

该数据集系统性地解决了异质图学习领域长期存在的基准缺失问题。传统同质化数据集无法准确反映现实世界中节点间标签与连接的非齐次关联特性，导致许多图神经网络模型在实际应用中出现性能局限。通过提供覆盖社交网络、学术引用、专利系统等多领域的大规模异质图数据，该数据集使研究者能够深入探究拓扑结构与节点特征的复杂交互机制，推动了针对异质图的可扩展算法设计与理论分析的发展。

衍生相关工作

基于该数据集衍生的经典工作包括LINKX模型架构的提出与优化，该模型通过分离处理邻接矩阵与节点特征的多层感知机融合机制，实现了异质图上的高效可扩展学习。同时催生了针对异质图采样技术的改进研究，如GraphSAINT和Cluster-GCN等方法的适应性优化。在理论层面，该数据集推动了新型同质性度量指标的发展，并促进了MixHop、GPR-GNN等异质图神经网络在更大规模场景下的架构创新与性能验证。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集