five

H2GB

收藏
arXiv2024-07-16 更新2024-07-17 收录
下载链接:
https://junhongmit.github.io/H2GB/
下载链接
链接失效反馈
官方服务:
资源简介:
H2GB数据集由麻省理工学院、IBM研究院和弗吉尼亚理工大学联合创建,是一个针对图学习中异质性和异质性问题的基准测试集。该数据集包含9个来自学术、金融、电子商务、社会科学和网络安全等5个领域的真实世界数据集,每个数据集都具有数百万节点和数千万边,旨在评估图学习方法在异质性和异质性环境下的性能。数据集的创建过程考虑了复杂的节点和边类型,以及它们之间的异质性关系,适用于解决金融欺诈检测、社交网络分析等领域的复杂问题。

The H2GB dataset, jointly developed by the Massachusetts Institute of Technology (MIT), IBM Research, and Virginia Tech, serves as a benchmark dataset for addressing the homophily and heterogeneity issues in graph learning. It consists of 9 real-world datasets spanning 5 domains including academia, finance, e-commerce, social sciences, and cybersecurity. Each individual dataset contains millions of nodes and tens of millions of edges, and is specifically designed to evaluate the performance of graph learning methods under homophilic and heterogeneous environments. The creation process of the dataset takes into account complex node and edge types as well as their heterogeneous interconnections, rendering it suitable for solving complex problems in fields such as financial fraud detection and social network analysis.
提供机构:
麻省理工学院计算机科学与人工智能实验室, IBM研究院, 弗吉尼亚理工大学
创建时间:
2024-07-16
原始信息汇总

ℋ²GB 数据集文档

概述

ℋ²GB(Heterophilic and Heterogeneous Graph Benchmark)是一个建立在 PyTorch、PyTorch Geometric 和 GraphGym 之上的库。它包含了一系列图基准数据集、数据加载器、模块化图变换器框架(UnifiedGT)和评估器,旨在系统地评估图学习方法在异质性和异构性设置中的性能。

数据集

ℋ²GB 包含了来自五个领域的九个多样化的真实世界数据集:

  • 学术界
  • 金融
  • 电子商务
  • 社交
  • 网络安全

功能

  • UnifiedGT:一个模块化的图变换器框架,用于总结和系统比较现有图神经网络(GNNs)在新基准上的性能。
  • 数据加载器:与 PyTorch Geometric 完全兼容,提供自动数据集下载、标准化的数据集分割和统一性能评估。

参考链接

搜集汇总
数据集介绍
main_image_url
构建方式
H2GB 数据集的构建旨在填补现有图学习基准在处理异质性和异类性方面的空白。它涵盖了来自学术、金融、电子商务、社会科学和网络安全的9个现实世界数据集,这些数据集包含了多种节点和边类型,以及大量的节点和边。H2GB 还包括28个基线模型实现和26个基准结果,为图学习方法提供了一个全面的评估框架。
使用方法
H2GB 数据集的使用方法包括以下几个方面:1. 下载和安装 H2GB 数据集和 UNIFIEDGT 框架。2. 使用 UNIFIEDGT 框架实现基线模型或自定义模型。3. 在 H2GB 数据集上训练和评估模型。4. 使用 H2GB 数据集和 UNIFIEDGT 框架进行图学习方法的研究和开发。
背景与挑战
背景概述
H2GB数据集是在2024年由MIT CSAIL、IBM Research和Virginia Tech的研究人员联合创建的。该数据集旨在填补当前图学习领域中存在的空白,即针对同时具有异质性和异质性的图的学习方法的研究不足。H2GB数据集包含了来自五个不同领域的9个真实世界数据集,这些领域包括学术、金融、电子商务、社会科学和网络安全的学术网络。数据集的创建是为了解决图神经网络(GNNs)在处理异质性和异质性的图时面临的挑战。H2GB数据集对现有模型在异质性异质图学习上的不足进行了揭示,并通过UNIFIEDGT框架和H2G-former模型展示了在处理此类图时的优越性。
当前挑战
H2GB数据集相关的挑战主要包括:1) 缺乏同时考虑异质性和异质性的图学习基准;2) 在异质性环境下,现有异质性度量指标的有效性不足;3) 针对异质性图,现有的异质性GNNs的性能不足。H2GB数据集的创建旨在解决这些挑战,并为图学习领域提供一个更全面、更真实的评价框架。
常用场景
经典使用场景
H2GB 数据集是专门为评估图学习模型在兼具异质性和异质性的图上的性能而设计的。它包括来自五个领域的九个真实世界数据集,涵盖了学术、金融、电子商务、社会科学和网络安全等领域,这些数据集的节点和边类型多样,结构复杂。H2GB 数据集的经典使用场景包括论文会议分类、金融欺诈/恶意软件检测以及社交网络分析等。这些场景对图学习模型提出了极高的要求,需要模型能够有效地处理图中的异质性和异质性。
解决学术问题
H2GB 数据集解决了当前图学习研究中一个重要的问题,即缺乏同时具备异质性和异质性的图的基准数据集。现有的基准数据集要么关注同质图,要么关注异质图,而忽略了现实世界中许多图同时具有异质性和异质性的情况。H2GB 数据集的出现填补了这一空白,为评估图学习模型在复杂图上的性能提供了新的标准。此外,H2GB 数据集还引入了一种新的异质性度量指标 H2,该指标能够更准确地反映异质图的异质性程度,为研究异质图学习提供了新的工具。
实际应用
H2GB 数据集在实际应用中具有广泛的应用前景。在学术领域,H2GB 数据集可用于评估论文会议分类模型的性能,帮助研究者更好地理解学术网络的动态和规律。在金融领域,H2GB 数据集可用于评估金融欺诈/恶意软件检测模型的性能,帮助金融机构更好地识别和防范欺诈行为。在社交网络领域,H2GB 数据集可用于评估社交网络分析模型的性能,帮助研究者更好地理解社交网络的结构和功能。
数据集最近研究
最新研究方向
H2GB数据集的研究方向主要集中在异质性和异构性图学习领域。该数据集的引入填补了现有图学习基准在同时包含异质性和异构性图上的空白,为评估图学习方法在异质异构图上的性能提供了挑战性和现实性的评价框架。H2GB数据集涵盖了来自学术、金融、电子商务、社会科学和网络安全等五个领域的九个真实世界数据集,为研究异质异构图学习提供了丰富的资源。此外,该研究还提出了一个模块化的图Transformer框架UNIFIEDGT,以及一个新的模型变体H2G-former,能够有效地处理异质异构图。实验结果表明,H2G-former在H2GB基准上的性能优于现有方法,为图学习应用提供了新的解决方案。
相关研究论文
  • 1
    When Heterophily Meets Heterogeneity: New Graph Benchmarks and Effective Methods麻省理工学院计算机科学与人工智能实验室, IBM研究院, 弗吉尼亚理工大学 · 2024年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作