five

DRIFT

收藏
arXiv2026-05-13 更新2026-05-15 收录
下载链接:
https://github.com/UConn-DSIS/DRIFT
下载链接
链接失效反馈
官方服务:
资源简介:
DRIFT是由康涅狄格大学等研究机构构建的面向任务无关持续图学习的基准数据集,旨在模拟现实世界中连续分布漂移的动态图数据流。该数据集基于CoraFull-CL、Arxiv-CL、Reddit-CL和RomanEmpire-CL四个图数据集构建,涵盖数万至数十万节点规模,通过高斯混合参数化实现从硬任务切换到平滑分布漂移的连续过渡动态。其创建过程采用时间变化混合模型,将数据流建模为潜在任务分布的时变混合,通过控制高斯核宽度参数实现不同程度的任务重叠。该数据集主要应用于评估持续图学习算法在非平稳环境下的性能,解决传统任务划分假设与真实数据流连续演化之间的差距问题。

DRIFT is a benchmark dataset for task-agnostic continual graph learning, constructed by researchers from institutions including the University of Connecticut, aiming to simulate dynamic graph data streams with continuous distribution drift in real-world scenarios. It is built based on four graph datasets: CoraFull-CL, Arxiv-CL, Reddit-CL and RomanEmpire-CL, with scales ranging from tens of thousands to hundreds of thousands of nodes. The dataset achieves the continuous transition from hard task switching to smooth distribution drift through Gaussian mixture parameterization. Its creation process adopts a time-varying mixture model, which models the data stream as a time-varying mixture of latent task distributions, and realizes different degrees of task overlap by controlling the Gaussian kernel width parameter. This dataset is primarily used to evaluate the performance of continual graph learning algorithms in non-stationary environments, addressing the gap between traditional task partitioning assumptions and the continuous evolution of real-world data streams.
提供机构:
康涅狄格大学; 皇家墨尔本理工大学; 休斯顿大学
创建时间:
2026-05-13
原始信息汇总

DRIFT 数据集概览

DRIFT 是一个用于任务无关持续图学习(Task-Free Continual Graph Learning)的基准测试,专注于连续分布漂移场景。该基准测试提供了统一的评估框架,适用于任务边界模糊、渐进或缺失的现实流式场景。

核心特性

  • 任务无关设置:支持类增量、模糊、边界模糊、高斯过渡和时间增量等多种流式场景
  • 多骨干网络:内置 GCN、GAT 和 GIN 三种图神经网络骨干
  • 全面基线方法:包含 9 种持续学习方法,涵盖基于回放、正则化和联合训练等类型
  • 标准化数据集:提供多个标准化的持续学习图数据集版本

支持的数据集

数据集 类型 用途
CoraFull-CL 引文网络 任务无关流式学习
Arxiv-CL 引文网络 任务无关/时间流式学习
Reddit-CL 社交网络 任务无关流式学习
RomanEmpire-CL 异质图 任务无关流式学习

支持的模型与方法

方法 类型 说明
bare 下界 朴素序贯微调
joint 上界 所有任务联合训练
mas 正则化 记忆感知突触
tfmas 正则化 任务无关 MAS
agem 回放 平均梯度片段记忆
er 回放 经验回放
gss 回放 基于梯度的样本选择
ssm 回放 稀疏子图记忆
dmsg 回放 解耦记忆子图
sem 回放 结构演化记忆

支持的设置

设置参数 描述
tfocis 任务无关类增量流
tfo 通过类别重叠实现模糊任务
tfo_bb 边界模糊:混合相邻任务批次样本
tfo_gaussian 高斯加权连续任务过渡

评估指标

  • 最终准确率 (FA):最后一个任务后的平均准确率
  • 反向迁移 (AF):新任务对先前任务的影响
  • 前向迁移 (FWT):对未见任务的零样本迁移能力
  • AAUC:整个流式过程中的平均准确率
  • FM/AF_s:流结束时与峰值准确率的下降量

快速使用示例

高斯连续过渡: bash python main.py --dataset CoraFull-CL --backbone GCN --method sem --setting tfo_gaussian --gaussian_sigma 20.0

全局模糊: bash python main.py --dataset Arxiv-CL --backbone GCN --method ssm --setting tfo_blurry --percentage 0.9

边界模糊: bash python main.py --dataset CoraFull-CL --backbone GCN --method dmsg --setting tfo_bb --blurry_batch_count 5 --boundary_mix_ratio 0.5

类增量流: bash python main.py --dataset CoraFull-CL --backbone GCN --method er --setting tfocis

时间增量流: bash python main.py --dataset Arxiv-CL --backbone GCN --method er --time_streaming True --n_time_tasks 20

相关论文

该基准测试基于 CGLB(Zhang 等人,NeurIPS 2022)扩展而来,新增了任务无关场景和连续分布漂移设置。若使用本数据集,请引用相关论文:

bibtex @article{drift2026, title={DRIFT: A Benchmark for Task-Free Continual Graph Learning under Continuous Transitions}, author={Guiquan Sun, Xikun Zhang, Jingchao Ni, Dongjin Song}, journal={arXiv preprint arXiv:2605.12998}, year={2026} }

搜集汇总
数据集介绍
main_image_url
构建方式
DRIFT基准数据集构建于任务无关的持续图学习框架之上,旨在模拟现实世界中数据分布的连续演化。其构建方式首先将完整的图数据集按照类别增量方式分解为若干潜在任务,每个任务对应一组特定标签的节点子集。随后,通过高斯混合曲线对时间依赖性混合系数进行参数化,以控制各潜在任务在数据流中的贡献比例,从而生成从硬任务切换至平滑分布漂移的过渡动态。在每个时间步,依据混合系数从各任务中有放回或无放回地采样节点,形成小批量数据,最终构建出覆盖连续非平稳环境的统一数据流。
特点
DRIFT的核心特点在于其能够生成从近乎离散的任务边界到完全连续分布漂移的广谱过渡动态,这得益于高斯参数化对时间重叠程度的精细调控。数据集涵盖了同质性主导图(如Arxiv、Reddit)与异质性图(如RomanEmpire)等多种结构类型,反映了真实图数据的多样性。其任务无关的设计使得模型无法获取显式的任务标识或边界信息,从而考验算法在真实非平稳流式数据下的泛化能力。此外,DRIFT支持可控的过渡速度与重叠度,为系统研究过渡平滑性对持续学习行为的影响提供了标准化平台。
使用方法
使用DRIFT基准时,模型需在无任务标识的在线单次遍历设置下进行训练。数据以固定批量大小连续流入,每个小批量由高斯混合系数决定各潜在任务的采样比例。模型在每个批量上仅训练一个周期,随后接收下一批数据。评估采用沿数据流连续测试的策略,报告曲线下面积与无边界依赖的遗忘指标,以衡量模型在持续分布漂移下的适应性与记忆保持能力。用户可从GitHub仓库获取标准化数据流生成代码,并基于提供的实验协议复现或扩展评估,以开发更多鲁棒的任务无关持续图学习方法。
背景与挑战
背景概述
DRIFT基准数据集由康涅狄格大学与皇家墨尔本理工大学的研究人员于2026年联合创建,旨在重塑持续图学习的研究范式。传统持续图学习假设数据流被分割为具有明确边界的离散任务,然而现实世界中用户偏好、知识图谱等图数据的分布往往呈现连续漂移且任务身份不可知。DRIFT创新性地将数据流建模为随时间变化的潜在任务混合分布,通过高斯参数化实现从硬切换至平滑漂移的连续转换光谱,为无任务边界的持续图学习提供了统一的评估框架。该数据集涵盖四种具有不同同质性与异质性特征的图数据集,揭示了现有方法在无任务边界设定下的性能显著退化,推动了持续图学习向更贴近真实非平稳场景的方向发展。
当前挑战
DRIFT所解决的核心领域挑战在于图数据流中分布漂移的连续性与任务边界的模糊性,传统基于离散任务的设定无法反映用户偏好渐变、研究主题演化等现实场景。在构建过程中,主要挑战包括:如何设计统一的概率框架以连续刻画从硬切换至全局混合的转变动力学;如何确保不同数据集在任务分解、时序调度及批次级采样中的结构一致性与可控性;以及如何在保持评估公正性的同时,使得模型无法利用隐藏的任务身份信息。此外,合成流协议虽然利于控制实验变量,但如何准确模拟自然演化的图拓扑与长程周期性的概念漂移仍是未竟难题。
常用场景
经典使用场景
DRIFT基准数据集专为无任务持续图学习场景而设计,其核心应用在于模拟现实世界中数据分布连续漂移的非平稳环境。通过高斯参数化混合曲线,该数据集能够统一刻画从硬任务切换至平滑分布漂移的完整过渡动态谱系,为评估模型在无显式任务边界条件下的适应能力提供了标准化测试平台。研究者利用该基准可系统探究图神经网络在连续流式数据上的学习行为,尤其关注分布重叠程度对模型性能的调控作用。
解决学术问题
DRIFT直面传统持续图学习研究中任务边界假设与真实世界脱节的根本矛盾。它揭示了现有方法普遍隐式依赖任务身份信息这一关键缺陷,在无任务标识的连续流式场景下,多数代表性方法性能显著退化,相对朴素基线方法的优势大幅收缩。该数据集首次阐明了过渡平滑度引发的适应-遗忘权衡机制,即重叠批次虽提供隐式排练效应却削弱了潜在分布的可分离性,为后续研究提供了明确的问题导向和理论基准。
衍生相关工作
DRIFT的提出催生了一系列围绕无任务持续图学习的前沿探索。其统一混合公式启发了对过渡动力学的系统性研究,包括全局混合、边界局部混合等多种变体的对比分析。该基准揭示了现有方法如基于检测器的MAS*和依赖任务划分的SSM/SEM在平滑过渡下的失效模式,进而推动了更具鲁棒性的样本选择策略和多样性记忆机制的发展,如DMSG在重叠分布下展现出的稳定遗忘行为即是典型案例。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作