Illinois Graph Benchmark (IGB)
收藏arXiv2023-06-22 更新2024-06-21 收录
下载链接:
https://github.com/IllinoisGraphBenchmark/IGB-Datasets
下载链接
链接失效反馈官方服务:
资源简介:
Illinois Graph Benchmark (IGB)是由伊利诺伊大学厄巴纳-香槟分校开发的用于深度学习研究的大型图数据集工具。IGB包含同质和异质学术图,节点标注率超过40%,支持DGL和PyG框架,适用于研究各种GNN架构和系统性能分析。数据集设计灵活,可用于节点分类任务,旨在解决现有图数据集规模小、标注数据有限的问题,推动GNN模型在未见数据上的泛化能力。
Illinois Graph Benchmark (IGB) is a large-scale graph dataset tool developed by the University of Illinois Urbana-Champaign for deep learning research. IGB includes both homogeneous and heterogeneous academic graphs, with a node annotation rate exceeding 40%. It supports both DGL and PyG frameworks, and is suitable for researching various GNN architectures and conducting system performance analysis. The dataset is flexibly designed and can be used for node classification tasks. It aims to address the limitations of small scale and limited labeled data in existing graph datasets, and promote the generalization capability of GNN models on unseen data.
提供机构:
伊利诺伊大学厄巴纳-香槟分校
创建时间:
2023-02-27
搜集汇总
数据集介绍

构建方式
在构建伊利诺伊图基准(IGB)数据集时,研究团队主要整合了微软学术图谱(MAG)和语义学者(SemanticScholar)两大开放学术数据库。通过精心设计的节点对齐与标签融合策略,将两个数据库中的论文、作者、机构和研究领域节点进行关联,构建出同质与异质两种图结构。同质图(IGB-HOM)专注于论文引用关系,而异质图(IGB-HET)则包含多种节点类型及复杂关系边。节点嵌入通过Sentence-BERT等预训练语言模型对论文标题和摘要进行编码生成,确保了特征的语义丰富性。
特点
IGB数据集的核心特点在于其前所未有的规模与标注完整性。该数据集提供了高达2.69亿节点的同质图和5.47亿节点的异质图,其中超过40%的节点具有高质量的人工标注标签,标注数据量相比现有最大公共图数据集提升了162倍。数据集设计极具灵活性,提供了从微型到完整规模的多种子图变体,这些变体在保持同配性一致的前提下,允许研究者在不同计算资源下进行实验。此外,IGB支持多种嵌入维度和生成模型,并附带了用于生成嵌入的原始文本,为探索图神经网络与语言模型的交叉研究提供了宝贵资源。
使用方法
研究者可通过官方开源代码库获取IGB数据集,其已深度集成至主流的图神经网络框架DGL和PyG中,便于快速开展实验。数据集适用于节点分类任务,特别是包含19类和2983类两种复杂度的多分类问题,可用于评估模型在细粒度分类上的鲁棒性。使用前,需根据硬件条件选择合适规模的子图(如tiny, small, medium, large, full),并加载相应的图结构、节点特征与标签。训练流程遵循标准的监督学习范式,数据集已预设60/20/20的训练、验证与测试划分。用户还可利用其提供的工具包,灵活生成不同语言模型或维度的节点嵌入,以进行嵌入质量对模型性能影响的消融研究。
背景与挑战
背景概述
在深度学习领域,图神经网络(GNNs)已成为处理图结构数据的关键技术,广泛应用于欺诈检测、推荐系统和知识表示等复杂场景。然而,GNN研究的深入发展长期受限于公开图数据集的规模与质量,现有数据集普遍存在规模较小、标注数据稀缺、缺乏异构性以及特征灵活性不足等问题,难以支撑模型在未见数据上的泛化能力评估与系统性能的深入研究。为应对这一挑战,伊利诺伊大学厄巴纳-香槟分校、NVIDIA、IBM研究院及AWS AI等机构的研究团队于2023年联合推出了伊利诺伊图基准(Illinois Graph Benchmark, IGB)。该数据集基于微软学术图谱和语义学者语料库构建,包含同质与异构两类学术图,其中同质图(IGB-HOM)拥有约2.69亿节点和40亿边,异构图(IGB-HET)规模更达5.47亿节点和60亿边,且超过40%的节点具有高质量标注。IGB通过提供海量标注数据、可变尺寸的嵌入表示以及保持同质性的多尺度子图,旨在为GNN模型的训练、评估与系统设计提供高保真的研究工具,显著推动了图神经网络在可扩展性与泛化性方面的探索。
当前挑战
IGB数据集致力于解决图神经网络领域的两大核心挑战:一是现有公开数据集在节点分类等监督学习任务中标注数据极度匮乏的困境,这导致模型难以区分性能瓶颈源于训练数据不足还是泛化能力欠缺;二是缺乏能够系统研究嵌入生成、模型架构与系统效率之间相互影响的灵活数据集。在构建过程中,研究团队面临多重技术难题:首先,整合来自微软学术图谱和语义学者等异构数据源时,需解决实体对齐、标签模式融合与数据一致性问题;其次,为超大规模图生成并管理高维节点嵌入(如1024维RoBERTa嵌入)对存储与计算提出严峻考验;最后,设计具有一致同质性且可灵活伸缩的子图集合,以支持从边缘设备到分布式系统的全尺度性能评估,需要精密的图采样与特征工程方法。这些挑战的克服使得IGB成为首个在标注规模、特征多样性与系统可扩展性方面均实现突破的公开图基准。
常用场景
经典使用场景
在深度学习研究领域,图神经网络(GNN)的评估与开发长期受限于公开数据集的规模与质量。伊利诺伊图基准(IGB)的引入,为这一困境提供了突破性解决方案。该数据集最经典的使用场景在于为GNN模型提供大规模、高标注比例的学术图数据进行训练与系统性评估。研究者可利用其包含的同质与异质图结构,涵盖超过2.6亿至5.4亿节点及数十亿边,其中超过40%的节点带有精准标注,从而在节点分类等核心任务上深入探究模型在大规模真实图数据上的泛化能力与可扩展性。
解决学术问题
IGB数据集有效解决了图神经网络研究中的若干关键学术问题。首要贡献在于填补了公开图数据集中标注数据严重不足的空白,其提供的标注节点数量较现有最大公开数据集高出162倍以上,使得研究者能够清晰区分模型精度低下是源于训练数据不足还是模型本身泛化能力欠缺。其次,数据集通过提供可变规模的嵌入向量、支持不同语言模型生成嵌入、以及保持同质性的一系列子图,赋予了研究者在嵌入生成技术、图规模扩展对模型精度影响等方面进行消融研究的灵活性与严谨性。这为深入理解GNN各组件的作用机制及系统性能演进规律奠定了坚实的数据基础。
衍生相关工作
自IGB数据集发布以来,其丰富的数据资源与灵活的配置选项已催生并支撑了多项前沿研究工作的开展。在模型层面,它被广泛用于评估和比较各类GNN架构(如GCN、GraphSAGE、GAT及其异质图变体RGCN、RGAT等)在超大规模节点分类任务上的极限性能。在系统层面,IGB暴露了现有训练框架在处理超出主机内存的图数据时存在的效率瓶颈,激发了针对大规模图训练的内存映射优化、采样聚合加速等新型系统设计的研究。同时,其提供的原始文本数据也促进了图神经网络与预训练语言模型交叉领域的研究,例如探索如何更有效地利用文本信息增强图节点表示,推动了图学习与自然语言处理融合的学术进展。
以上内容由遇见数据集搜集并总结生成



