Temporal Graph Reasoning Benchmark (T-GRAB)

Name: Temporal Graph Reasoning Benchmark (T-GRAB)
Creator: Mila, DIRO-UdeM, University of Oxford, SoCS-McGill, CIFAR AI Chair
Published: 2025-07-14 19:47:43
License: 暂无描述

arXiv2025-07-14 更新2025-07-16 收录

下载链接：

https://github.com/alirezadizaji/T-GRAB

下载链接

链接失效反馈

官方服务：

资源简介：

T-GRAB是一个专为评估时间图神经网络（TGNNs）在时间推理方面的能力而设计的合成基准。它包含了一系列的合成任务，旨在系统地检验TGNNs在三个核心方面的能力：计数/记忆周期性重复、推断延迟因果关系以及捕捉跨越时空维度的长期依赖关系。通过这种方式，T-GRAB提供了可控且可解释的任务，这些任务可以隔离出关键的时序技能，并允许在受控的环境中对TGNNs进行评估。数据集T-GRAB包含三个动态链接预测任务类别，分别是周期性任务、因果关系任务和长程时空任务。这些任务旨在帮助研究者更深入地理解TGNNs在处理时序数据时的局限性和挑战。

T-GRAB is a synthetic benchmark specifically developed to assess the temporal reasoning capabilities of Temporal Graph Neural Networks (TGNNs). It comprises a suite of synthetic tasks designed to systematically probe TGNNs' capabilities across three core dimensions: counting/memorizing periodic repetitions, inferring delayed causal relationships, and capturing long-term dependencies spanning spatio-temporal dimensions. As such, T-GRAB offers controllable and interpretable tasks that can isolate critical temporal skills and enable controlled evaluation of TGNNs. The T-GRAB dataset encompasses three categories of dynamic link prediction tasks: periodic tasks, causal relationship tasks, and long-range spatio-temporal tasks. These tasks enable researchers to gain deeper insights into the limitations and challenges faced by TGNNs when processing temporal data.

提供机构：

Mila, DIRO-UdeM, University of Oxford, SoCS-McGill, CIFAR AI Chair

创建时间：

2025-07-14

原始信息汇总

T-GRAB 数据集概述

数据集简介

名称: T-GRAB (A Synthetic Reasoning Benchmark for Learning On Temporal Graphs)
类型: 合成时序图推理基准数据集
目的: 系统评估时序图神经网络(TGNNs)在时间维度上的推理能力

核心任务

数据集包含三类核心时序推理任务：

周期性计数与记忆 (periodicity)
- 计数和记忆周期性重复模式
延迟因果效应推断 (cause_effect)
- 推断延迟的因果效应
长程依赖捕捉 (long_range)
- 捕捉跨时空维度的长程依赖关系

数据集生成

生成方式:
- 快速生成: 使用sample.sh脚本
- 分布式生成: 使用Slurm的all_in_one.sh脚本
存储格式: numpy压缩格式
默认存储路径: scratch/data/

数据集下载

下载地址: https://drive.google.com/file/d/12lSbmrfatKGQUx8WWbPpbH4DsyzDLycr/view

支持模型架构

CTDG-based模型:
- DyGFormer
- TGN
- TGAT
- CTAN
DTDG-based模型:
- GCN
- GCLSTM
- TGCN
- GAT
- EGCN
基线方法:
- EdgeBank
- Previous

实验配置

训练脚本路径: scripts/task/
结果存储路径: scratch/res/
实验模式:
- 评估模式(EVAL_MODE)
- 清除结果模式(CLEAR_RESULT)
实验管理:
- 支持Slurm批处理作业
- 支持顺序执行

依赖环境

Python虚拟环境: 需通过requirements.txt安装依赖
实验跟踪: 需要Weights & Biases账户

搜集汇总

数据集介绍

构建方式

T-GRAB数据集通过精心设计的合成任务系统构建，旨在评估时序图神经网络（TGNNs）在时间维度上的推理能力。该数据集包含三类动态链接预测任务：周期性任务、因果效应任务和长程时空任务。周期性任务通过交替呈现固定或随机生成的静态图序列，测试模型对重复模式的计数与记忆能力；因果效应任务通过引入时间滞后的因果关系，检验模型对延迟效应的推断能力；长程时空任务则结合多跳空间路径与时间延迟，评估模型在时空双重维度上的依赖关系捕捉能力。所有任务均在受控的图结构中生成，确保能够清晰隔离并评估特定的时间推理技能。

使用方法

使用T-GRAB时，需按照时序图学习标准流程划分训练、验证和测试集，并确保周期性任务的数据分割保留完整周期。评估采用F1分数作为核心指标，针对不同任务特性调整评估范围：周期性任务涵盖所有测试边，而因果效应和时空任务仅评估与目标节点相关的边以避免随机干扰。实验需控制关键超参数（如时序邻居采样数量），以分析其对模型性能的影响。该数据集兼容连续时间（CTDG）和离散时间（DTDG）方法，用户可通过调整任务参数（如ℓ、d）生成不同难度的变体，系统性测试模型的泛化能力。

背景与挑战

背景概述

Temporal Graph Reasoning Benchmark (T-GRAB) 是由Mila、DIRO-UdeM、University of Oxford等机构的研究团队于2025年提出的合成诊断基准数据集，旨在系统评估时序图神经网络（TGNNs）在时间维度上的推理能力。该数据集通过设计周期性、因果效应和长程时空依赖三类核心任务，填补了时序图学习领域缺乏可控诊断基准的空白。T-GRAB的诞生标志着时序图学习从单纯性能评估转向能力诊断的新阶段，其通过解耦复杂现实数据中的混杂因素，为揭示模型在基础时序模式捕捉上的本质缺陷提供了科学工具，对推动具有强时序推理能力的架构设计具有里程碑意义。

当前挑战

T-GRAB针对时序图学习领域的两大挑战展开攻坚：在领域问题层面，现有TGNNs难以有效捕捉周期性、延迟因果和长程依赖等基础时序模式，且在传统现实基准测试中这些缺陷常被噪声和复杂结构掩盖；在构建层面，需突破合成数据与真实场景的语义鸿沟，通过算法生成具有严格可控难度梯度（如周期长度k、时空距离d等参数）的图序列，同时确保任务设计既能隔离特定能力评估，又能反映现实动态图的本质特征。实验表明，当前最优模型在Pdet(256,1)记忆任务中F1骤降至0.2以下，在CE(256)因果任务中性能趋近随机基线，凸显时序推理仍是亟待突破的算法瓶颈。

常用场景

经典使用场景

T-GRAB数据集作为首个专注于时序图推理能力的合成基准，其经典使用场景聚焦于系统评估时序图神经网络（TGNNs）在周期性模式识别、因果延迟推理及长程时空依赖建模等核心能力。通过生成可控的合成任务（如周期性链接预测、延迟因果效应推断），研究者可剥离现实数据中的噪声干扰，精确量化模型在特定时序模式上的泛化表现。该数据集尤其适用于对比不同架构（如基于记忆模块的TGN与基于注意力的TGAT）在基础时序推理任务中的性能差异。

解决学术问题

T-GRAB解决了时序图学习领域的关键学术问题：现有评估基准因现实数据的复杂耦合性（如噪声交互与时空演化混杂）难以定位模型失效根源。该数据集通过解耦时空依赖关系，首次实现了对TGNNs三类核心能力的独立测评：1）周期性模式记忆与计数能力，揭示了模型依赖简单启发式（如持久性预测）而非真实时序推理的缺陷；2）延迟因果推理能力，暴露了现有方法在长时记忆保持上的局限性；3）跨时空长程依赖建模能力，验证了注意力机制相比循环架构的优越性。这些发现为改进模型设计提供了可解释的理论依据。

实际应用

在实际应用中，T-GRAB的合成任务设计直接映射现实场景需求。例如周期性任务可模拟社交网络的用户活跃周期，指导推荐系统优化；因果推理任务对应金融交易中的延迟欺诈检测，提升风险预测精度；长程时空任务则类似交通流预测中需同时考虑路段拓扑与历史拥堵传播的场景。通过在该基准上验证的模型，能更可靠地部署于动态社交网络分析、实时交易监控、智能交通调度等对时序推理要求严苛的领域。

数据集最近研究