five

Heterogeneous Graph Benchmark (HGB)

收藏
arXiv2021-12-30 更新2024-06-21 收录
下载链接:
https://github.com/THUDM/HGB
下载链接
链接失效反馈
官方服务:
资源简介:
HGB数据集由清华大学等机构创建,包含11个异构图数据集,用于评估和推动异构图神经网络的研究。这些数据集覆盖了学术、电影、图书等多个领域,支持节点分类、链接预测和知识感知推荐等任务。数据集的构建旨在标准化异构图数据的处理和性能评估,为异构图研究提供了一个统一的基准。

The HGB dataset, developed by Tsinghua University and other institutions, comprises 11 heterogeneous graph datasets for evaluating and advancing research on heterogeneous graph neural networks. These datasets span multiple domains including academia, film, books and other fields, and support tasks such as node classification, link prediction, and knowledge-aware recommendation. The construction of the dataset aims to standardize the processing and performance evaluation of heterogeneous graph data, providing a unified benchmark for heterogeneous graph research.
提供机构:
清华大学
创建时间:
2021-12-30
搜集汇总
数据集介绍
main_image_url
构建方式
Heterogeneous Graph Benchmark (HGB) 是一个旨在促进异构图神经网络 (HGNN) 可复现性和鲁棒性研究的基准数据集。该数据集由 11 个多样化的数据集组成,涵盖节点分类、链接预测和知识感知推荐三个任务。HGB 标准化了异构图数据分割、特征处理和性能评估的过程,为 HGNN 模型的比较和评估提供了一个统一的平台。
特点
HGB 的特点在于其数据集的多样性、任务覆盖范围广以及评估方法的标准化。数据集涵盖了学术网络、信息网络和推荐图等多种类型的异构图,并针对每个任务设计了相应的数据分割和评估指标。此外,HGB 还提供了一个 leaderboard,用于展示可复现的 HGNN 模型的最新进展。
使用方法
使用 HGB 数据集进行 HGNN 研究的步骤如下:1) 选择一个 HGNN 模型并进行实现;2) 使用 HGB 提供的数据加载接口加载数据集;3) 根据数据集特点进行特征预处理;4) 将预处理后的特征输入 HGNN 模型进行训练;5) 使用 HGB 提供的下游解码器和损失函数进行性能评估;6) 将模型性能与 leaderboard 上的现有模型进行比较。HGB 的文档和代码库提供了详细的说明和示例,帮助研究人员快速上手和使用 HGB 数据集。
背景与挑战
背景概述
近年来,异构图神经网络(HGNNs)在图学习领域取得了长足的发展,它们能够处理包含多种节点和边类型以及不同侧信息的异构图。为了应对异质性的挑战,研究者们提出了各种HGNN模型,用于解决节点分类、链接预测和知识感知推荐等任务。然而,由于每个工作采用了独特的数据处理和评估设置,导致对HGNNs的实际进展缺乏全面的理解。为了解决这一问题,Lv等人于2021年提出了异构图基准(HGB),该数据集包含11个多样化的数据集和三个任务,旨在为异构图数据划分、特征处理和性能评估提供标准化的流程。HGB的创建有助于促进HGNNs的稳健和可重复性研究,并为该领域的发展做出了重要贡献。
当前挑战
尽管HGNNs取得了显著进展,但仍面临着一些挑战。首先,HGNNs的性能与简单的同构图神经网络(如GCN和GAT)相比,往往被低估,这可能是由于不适当的设置或数据预处理导致的。其次,一些HGNN模型在构建过程中存在数据泄露、在测试集上调参等问题,导致性能评估结果不准确。此外,现有的一些HGNN模型过于复杂,消耗大量的时间和内存资源,且没有带来显著的性能提升。最后,尽管元路径在异构图学习中具有重要作用,但其有效性仍需进一步验证,未来可能需要探索更有效的元路径利用方式或替代方案。
常用场景
经典使用场景
HGB数据集广泛应用于评估和比较异构图神经网络(HGNN)的性能。它包含11个多样化的异构图数据集,涵盖节点分类、链接预测和知识感知推荐等任务。研究者可以利用HGB数据集进行实验,以验证其HGNN模型在不同场景下的有效性,并通过HGB排行榜展示其研究成果。
解决学术问题
HGB数据集解决了异构图神经网络研究中存在的几个关键问题。首先,它提供了统一的数据集和评估标准,克服了现有研究中数据集和评估方法不一致的问题,使得不同模型之间的比较更加公平和可靠。其次,HGB数据集包含了多样化的异构图数据集,涵盖了不同的领域和应用场景,为研究者提供了更广泛的实验平台。最后,HGB数据集促进了异构图神经网络研究的开放性和可重复性,有助于推动该领域的进一步发展。
衍生相关工作
HGB数据集的提出催生了许多相关的经典工作。例如,基于HGB数据集,研究者提出了Simple-HGN模型,该模型在HGB数据集上取得了优异的性能,并成为了HGNN研究中的一个新的基线。此外,HGB数据集还被用于评估和比较其他HGNN模型,例如HAN、GTN、RSHN、HetGNN、MAGNN、HGT和HetSANN等。这些工作有助于推动HGNN模型的创新和发展,并为实际应用提供更好的解决方案。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作