IGB-Datasets

github2024-05-12 更新2024-05-31 收录

下载链接：

https://github.com/IllinoisGraphBenchmark/IGB-Datasets

下载链接

链接失效反馈

官方服务：

资源简介：

伊利诺伊图基准(IGB)是一个研究数据集工具，开发者可以使用它来训练图神经网络(GNNs)，该数据集旨在解决GNN研究中缺乏大规模灵活数据集的问题。

The Illinois Graph Benchmark (IGB) is a research dataset tool that developers can utilize to train Graph Neural Networks (GNNs). This dataset is designed to address the lack of large-scale, flexible datasets in GNN research.

创建时间：

2022-10-08

原始信息汇总

数据集概述

数据集名称

IGB (Illinois Graph Benchmark)

数据集特点

大规模灵活性：IGB包含巨大的真实世界引用图，超过40%的节点被标记，提供超过162倍于其他公开可用图数据集的标记数据。
灵活性：支持研究各种GNN架构、嵌入生成技术和系统性能分析。
开放源代码：支持DGL和PyG框架，并提供原始文本数据，促进语言模型和GNN研究项目。

数据集内容

数据类型：包括同质和异质引用图。
数据大小：提供不同大小的数据集，包括igb(h)-tiny, igb(h)-small, igb(h)-medium, igb(h)-large, igb260m/igbh600m。

数据集下载与安装

安装：通过pip install .安装igb包。
下载：使用Python脚本下载不同大小的数据集，如download.download_dataset(path=/root/igb_datasets, dataset_type=homogeneous, dataset_sizetiny)。
更新：对于2023年11月7日前下载的数据集，需要更新以获取最新的5M论文节点嵌入。

数据集使用

数据加载器：提供易于使用的DGL数据加载器，并即将添加PyTorch Geometric数据加载器。
模型实现：已实现Graph Convolutional Neural Net (GCN), GraphSAGE, 和 Graph Attention Network (GAT)。
多GPU支持：提供脚本以在多个GPU上运行上述模型。

数据集指标

同质数据集指标：提供详细的性能指标。
异质数据集指标：展示数据集的结构和特性。

数据集贡献与引用

贡献：详细信息请查看Contributions.md文件。
引用：使用数据集时，请引用相关文章。

未来更新

计划：将发布原始文本数据以支持NLP+GNN任务，并提供时间图数据集。

搜集汇总

数据集介绍

构建方式

IGB-Datasets的构建基于大规模的现实世界引用图，涵盖同质和异质图结构，节点数量庞大且超过40%的节点带有标签。数据集通过从AWS下载压缩文件并进行md5sum校验，确保数据的完整性和安全性。此外，数据集还提供了更新嵌入文件的便捷方法，用户无需重新下载整个数据集即可更新部分嵌入信息。

特点

IGB-Datasets的主要特点在于其规模和多样性，提供了比现有公开数据集多162倍的标签数据，极大地提升了深度学习模型的训练和评估能力。数据集支持DGL和PyG框架，适用于多种GNN架构的研究，包括GCN、GraphSAGE和GAT等。此外，数据集的灵活性允许用户在不同规模和类型的数据上进行实验，从而深入分析GNN模型的性能。

使用方法

使用IGB-Datasets时，用户可以通过Python脚本下载指定规模和类型的数据集，并使用提供的DGLDataset加载器进行数据加载。加载器支持内存映射模式，适用于数据集超出RAM的情况。数据集还提供了多种GNN模型的实现，用户可以根据需求选择合适的模型进行训练和评估。此外，数据集支持多GPU运行，用户可以通过提供的脚本在多个GPU上进行模型训练，进一步提升计算效率。

背景与挑战

背景概述

IGB-Datasets，由伊利诺伊大学厄巴纳-香槟分校的研究团队主导开发，旨在解决图神经网络（GNN）研究中大规模数据集匮乏的问题。该数据集于2023年发布，包含了巨大的同质和异质引用图数据，节点数量超过2.6亿，且超过40%的节点带有标签。IGB-Datasets的推出填补了现有公开数据集在规模和标签丰富性上的空白，为GNN模型的训练、评估和系统性能分析提供了灵活且高保真的工具。该数据集不仅支持DGL和PyG框架，还提供了原始文本数据，促进了语言模型与GNN研究的结合。

当前挑战

IGB-Datasets面临的主要挑战包括：1) 数据集的规模巨大，下载和存储对硬件资源提出了极高要求，尤其是igb(h)-large和igb260m/igbh600m数据集，需要超过500GB的存储空间；2) 数据集的异质性增加了模型训练的复杂性，如何在异质图中有效提取和利用特征是一个重要问题；3) 尽管数据集提供了大量标签，但如何在高维度和大规模数据上进行有效的模型泛化仍然是一个挑战；4) 数据集的更新和维护也是一个持续的挑战，特别是在处理大规模嵌入文件时，确保数据的一致性和完整性需要复杂的操作。

常用场景

经典使用场景

IGB-Datasets 作为大规模图神经网络（GNN）研究的重要基准，其经典使用场景主要集中在图神经网络模型的训练与评估。通过提供包含大量节点标签的同质和异质图数据，研究者可以利用该数据集对不同GNN架构（如GCN、GraphSAGE、GAT等）进行系统性测试，以评估其在处理大规模图数据时的性能与泛化能力。

解决学术问题

IGB-Datasets 解决了图神经网络研究中长期存在的数据集规模不足、标签稀缺以及异质性不足等问题。通过提供超过40%节点标签的大规模图数据，该数据集为研究者提供了充足的训练数据，帮助其评估模型在未见数据上的泛化能力，并深入研究不同GNN架构在处理复杂图结构时的表现。

衍生相关工作

IGB-Datasets 的发布催生了一系列相关研究工作，特别是在大规模图神经网络的训练与优化方面。许多研究者基于该数据集开发了新的GNN模型，并提出了多种图嵌入生成技术和系统性能优化方法。此外，该数据集还为跨领域研究（如NLP与GNN的结合）提供了丰富的实验平台。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集