five

OpenGT

收藏
arXiv2025-06-05 更新2025-06-07 收录
下载链接:
https://github.com/eaglelab-zju/OpenGT
下载链接
链接失效反馈
官方服务:
资源简介:
OpenGT是一个用于图Transformer的综合性基准,它为Graph Transformers提供了统一的实验设置,并包含了多种最先进的GNN和GT模型。OpenGT通过评估GTs在多个角度的性能,包括不同的任务类型、图结构、数据集规模、注意力机制和图特定信息的集成策略,来促进公平的比较和多维分析。OpenGT通过广泛的实验揭示了图Transformer的几个关键洞察,包括跨任务级别转移模型的难度、局部注意力的局限性、几种模型的效率权衡、特定位置编码的应用场景以及一些位置编码的预处理开销。OpenGT旨在为未来的图Transformer研究建立公平性、可重复性和泛化性的基础。

OpenGT is a comprehensive benchmark for Graph Transformers, which provides unified experimental configurations and encompasses a wide array of state-of-the-art GNN and GT models. OpenGT facilitates fair comparisons and multi-dimensional analyses by evaluating the performance of GTs across multiple dimensions, including diverse task types, graph structures, dataset scales, attention mechanisms, and integration strategies for graph-specific information. Through extensive experiments, OpenGT has uncovered several key insights into Graph Transformers, including the difficulty of transferring models across task levels, the limitations of local attention, efficiency trade-offs of several models, applicable scenarios for specific positional encodings, and the preprocessing overhead associated with certain positional encodings. OpenGT aims to establish a solid foundation for fairness, reproducibility, and generalizability in future Graph Transformer research.
提供机构:
浙江大学计算机科学与技术学院
创建时间:
2025-06-05
搜集汇总
数据集介绍
main_image_url
构建方式
OpenGT数据集的构建基于对图变换器(Graph Transformers, GTs)和传统图神经网络(Graph Neural Networks, GNNs)在多样化任务和数据集上的系统评估。研究团队通过统一的实验设置,重新实现了16种代表性的GT和GNN模型,涵盖了节点级和图级任务。数据集的选择考虑了图的规模、同质性、稀疏性等特性,包括Cora、Citeseer、Pubmed等经典引用网络数据集,以及分子图和蛋白质相关数据集如ZINC和OGBG-MolHIV。所有模型均在模块化的torch_geometric.graphgym框架下实现,确保了实验的一致性和可重复性。
特点
OpenGT数据集的特点在于其全面性和多样性。它不仅涵盖了多种任务类型(节点分类、图分类等),还包含了不同规模和结构的图数据,从同质性高的引用网络到异质性强的分子图。数据集特别关注了图变换器的设计空间,包括位置编码、注意力机制和图特定适配等方面。此外,OpenGT通过标准化的实验流程和详尽的超参数搜索,提供了公平且可比较的性能评估,为研究者提供了深入的洞察力。
使用方法
OpenGT数据集的使用方法主要包括模型训练、性能评估和多维分析。研究者可以通过提供的开源库轻松加载数据集和模型,进行训练和测试。数据集支持多种评估指标,如准确率、ROC-AUC和MAE,适用于不同类型的任务。此外,OpenGT还提供了详细的实验配置和超参数设置,方便用户复现实验结果或进行新的研究。用户还可以通过替换或扩展模块(如位置编码或注意力机制)来探索GT的设计空间,从而推动图变换器的进一步发展。
背景与挑战
背景概述
OpenGT是由浙江大学计算机科学与技术学院的研究团队于2025年提出的图Transformer综合基准测试框架。该数据集旨在解决图学习领域中图Transformer模型评估标准不统一的问题,由Jiachen Tang、Zhonghao Wang等学者共同开发。作为首个系统性的图Transformer评估平台,OpenGT整合了16种代表性模型和涵盖节点级与图级任务的多维度数据集,其创新性在于建立了标准化的实验设置和评估体系。该基准通过系统研究模型性能、架构设计选择、位置编码和计算效率等关键因素,为图Transformer的研究提供了重要的实证基础,推动了图神经网络领域向更公平、可复现和可泛化的方向发展。
当前挑战
OpenGT面临的挑战主要体现在两个方面:领域问题层面,图Transformer在异配图(heterophilous graphs)上表现优异但在任务迁移性方面存在局限,节点级任务设计的模型难以有效应用于图级任务;构建过程层面,位置编码的预处理开销成为主要瓶颈,特别是在大型图上计算随机游走统计量和谱分解等操作耗时严重,最短路径计算的时间复杂度高达O(n^3)。此外,模型设计中局部注意力机制在稀疏图上的性能局限,以及全局注意力带来的过全局化问题,都构成了重要的技术挑战。这些挑战突显了在图Transformer领域开发任务自适应架构和高效位置编码策略的必要性。
常用场景
经典使用场景
OpenGT数据集作为图变换器(Graph Transformers, GTs)领域的综合性基准,其经典使用场景主要聚焦于评估和比较不同GT模型在多样化图学习任务中的性能表现。该数据集覆盖了节点级和图级任务,包括引文网络、网页网络、分子图等多种领域,特别适用于研究GT模型在异质图(heterophilous graphs)和稀疏图中的表现。通过标准化的实验设置,OpenGT能够系统性地分析GT模型在不同图结构(如同质性、异质性、规模、稀疏性)下的性能差异,为研究者提供了一个公平、可复现的评估平台。
实际应用
OpenGT数据集在实际应用中具有广泛价值。在药物发现领域,其包含的分子图数据集(如ZINC、OGBG-MolHIV)可用于评估GT模型在分子性质预测和药物活性分类中的表现。在社交网络分析中,异质图数据集(如Actor、Texas)能够帮助优化社交关系建模和节点分类任务。此外,OpenGT的标准化评估框架可直接应用于工业场景,例如推荐系统中的图神经网络优化、知识图谱中的关系推理等。该数据集还提供了高效的代码库,支持快速部署和验证GT模型,降低了实际应用的技术门槛。
衍生相关工作
OpenGT数据集衍生了一系列经典研究工作,推动了图变换器领域的快速发展。基于其基准结果,研究者提出了多种改进的GT架构,如结合随机游走位置编码的GraphGPS+RWSE、采用图分割策略的CoBFormer等。这些工作针对OpenGT揭示的GT模型局限性(如位置编码预处理开销大、局部注意力在稀疏图中的性能不足等问题)提出了创新解决方案。此外,OpenGT的评估框架也被后续研究广泛采用,成为GT模型性能验证的事实标准。该数据集还启发了图基础模型(Graph Foundation Models)的研究,为构建通用图学习模型奠定了基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作