five

Heterophilic Text-Attributed Graph Benchmark (HeTGB)

收藏
arXiv2025-03-05 更新2025-03-11 收录
下载链接:
https://github.com/honey0219/HeTGB
下载链接
链接失效反馈
官方服务:
资源简介:
HeTGB是一个包含五个不同领域现实世界异质图的基准测试集,这些图具有低同质连接性特征,即链接的节点更可能具有不同的特征和属于不同的类别。每个数据集都包含丰富的文本内容,节点分类是反映异质性的最基本任务,HeTGB为图学习模型提供了全面的评估,包括GNNs、PLMs和协同训练方法。数据集经过精心挑选和预处理,以确保公平的比较和促进异质文本属性图学习的研究创新。

HeTGB is a benchmark dataset comprising real-world heterogeneous graphs from five distinct domains, which feature low homophily connectivity—i.e., linked nodes are more likely to possess different features and belong to different categories. Each dataset includes rich textual content, and node classification serves as the most fundamental task for reflecting graph heterogeneity. HeTGB provides comprehensive evaluations for graph learning models, including Graph Neural Networks (GNNs), Pre-trained Language Models (PLMs), and co-training methods. All datasets have been meticulously selected and preprocessed to enable fair comparisons and foster research innovations in heterogeneous text-attributed graph learning.
提供机构:
北京邮电大学, 新加坡管理大学
创建时间:
2025-03-05
搜集汇总
数据集介绍
main_image_url
构建方式
HeTGB数据集的构建方式包括从不同领域选择五个真实世界的异构图数据集,并从公开可访问的数据源中提取每个节点的原始文本内容。这些数据集被预处理成标准格式,并具有预定义的训练、验证和测试分割,以促进公平比较。构建过程中,由于现有异构图工作使用的公开预处理数据集缺乏原始文本内容和预处理步骤的详细信息,因此我们从原始数据源重建了这些数据集。每个数据集都经过精心选择,以确保其具有经典的异构结构,并与丰富的文本内容相关联。
特点
HeTGB数据集的特点包括异构图结构和丰富的文本内容。与以前主要关注结构特性的异构图数据集不同,HeTGB利用从原始数据源直接收集的原始文本内容,从而在关键统计数据(如节点和边的数量)上存在预期的差异。此外,HeTGB还提供了标准化数据分割、基线实现和性能指标,以确保可重复的研究并促进异构图学习的创新。
使用方法
HeTGB数据集的使用方法包括进行节点分类任务的监督学习。实验设置中,我们使用准确率作为评估指标,并将节点随机分为训练集、验证集和测试集。实验过程中,我们比较了不同学习方法(如GNN、PLM和co-training方法)在异构图数据集上的性能。此外,我们还可以使用HeTGB数据集进行模型开发、评估和比较,以促进异构图学习的研究。
背景与挑战
背景概述
图神经网络(GNNs)在假设同质性(即相邻节点具有相似特征)的前提下,已在模拟关系数据方面取得了成功。然而,现实世界中的许多图呈现出异质性,即相邻节点属于不同类别或具有不同的属性。此外,许多领域的节点都与文本描述相关联,形成了异质性文本属性图(TAGs)。尽管它们具有重要意义,但由于缺乏全面的基准,对异质性TAGs的研究仍然不够深入。为了解决这个问题,我们引入了异质性文本属性图基准(HeTGB),这是一个包含五个来自不同领域、具有丰富文本描述的异质性图数据集的新型基准。HeTGB使得对GNNs、预训练语言模型(PLMs)和协同训练方法在节点分类任务上的系统评估成为可能。通过广泛的基准实验,我们展示了文本属性在异质性图中的效用,分析了异质性TAGs带来的挑战和现有模型的局限性,并为图结构和文本属性之间的相互作用提供了见解。我们公开发布了HeTGB及其基线实现,以促进该领域的研究。
当前挑战
HeTGB面临的挑战主要包括:1) 缺乏全面的异质性TAGs数据集;2) 现有方法对异质性TAGs的处理能力有限。针对这些问题,HeTGB通过提供具有丰富文本描述的异质性图数据集,为评估现有方法在异质性TAGs上的性能提供了基础。此外,HeTGB还分析了现有方法在异质性TAGs上的局限性,并为进一步研究提供了方向。
常用场景
经典使用场景
HeTGB数据集是一个用于评估图神经网络(GNNs)、预训练语言模型(PLMs)和协同训练方法在节点分类任务上的性能的基准数据集。它包含了五个来自不同领域的真实世界异构文本属性图(TAGs)数据集,这些数据集中的节点被丰富的文本描述所丰富。HeTGB数据集使得研究者可以对现有的GNNs、PLMs和协同训练方法进行系统的评估,并深入分析了异构文本属性图中的挑战和现有模型的局限性,为未来研究提供了有价值的见解。
衍生相关工作
HeTGB数据集的发布激发了大量相关研究,推动了异构文本属性图学习的发展。一些研究者利用HeTGB数据集对现有的GNNs、PLMs和协同训练方法进行了改进,以提高它们在异构文本属性图上的性能。例如,一些研究者提出了新的异构图神经网络架构,以更好地处理异构文本属性图中的结构信息。一些研究者提出了新的预训练语言模型,以更好地捕捉异构文本属性图中的语义信息。一些研究者提出了新的协同训练方法,以更好地整合异构文本属性图中的结构信息和语义信息。这些相关工作进一步推动了异构文本属性图学习的发展,为未来研究提供了新的方向和思路。
数据集最近研究
最新研究方向
在当前的研究前沿,Heterophilic Text-Attributed Graph Benchmark (HeTGB) 数据集被广泛用于评估图神经网络 (GNNs)、预训练语言模型 (PLMs) 和协同训练方法在节点分类任务中的表现。该数据集的独特之处在于它包含了来自不同领域的五个真实世界的异质图数据集,这些数据集的节点都丰富了详细的文本描述。HeTGB 的引入填补了现有数据集在评估异质图学习方法方面的空白,并为理解异质图中文本属性的重要性提供了新的视角。通过使用 HeTGB,研究者们能够系统地评估现有模型在处理异质图时的挑战和局限性,并探索图结构和文本属性之间的相互作用。未来的研究方向可能包括开发自适应的协同训练框架,以更好地整合基于图的消息传递和基于 PLM 的推理,以及设计图标记化策略和高效的 PLM 微调技术。HeTGB 的广泛影响体现在它为评估异质图学习方法提供了一个全面的评估框架,推动了异质图学习领域的学术研究,并为社交网络、推荐系统、电子商务和金融等领域的实际应用提供了潜在的改进。
相关研究论文
  • 1
    HeTGB: A Comprehensive Benchmark for Heterophilic Text-Attributed Graphs北京邮电大学, 新加坡管理大学 · 2025年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作