five

TGB-Seq

收藏
arXiv2025-02-05 更新2025-02-11 收录
下载链接:
https://tgb-seq.github.io/
下载链接
链接失效反馈
官方服务:
资源简介:
TGB-Seq是一个包含八个基准数据集的集合,这些数据集来源于不同的应用领域,如电子商务互动、电影评分、商业评论、社交网络、引文网络和网页链接网络,旨在评估模型捕捉复杂序列动态的能力。这些数据集经过精心挑选,以最小化重复边,挑战模型学习序列动态并推广到未见边。数据集规模从中等到大型,包含数百万到数千万条边。

TGB-Seq is a collection of eight benchmark datasets derived from diverse application domains, including e-commerce interactions, movie ratings, business reviews, social networks, citation networks, and web link networks. It is designed to evaluate the ability of models to capture complex sequential dynamics. These datasets are carefully curated to minimize duplicate edges and challenge models in learning sequential dynamics and generalizing to unseen edges. Ranging from medium to large scale, the datasets contain millions to tens of millions of edges.
提供机构:
中国人民大学, 蒙特利尔大学, 华为技术有限公司, 复旦大学
创建时间:
2025-02-05
搜集汇总
数据集介绍
main_image_url
构建方式
TGB-Seq数据集的构建旨在挑战和评估时间图神经网络(temporal GNNs)在复杂序列动态学习方面的能力。数据集通过最小化重复边,鼓励模型学习序列动态并泛化到未见的边。数据集包括大型真实世界数据集,涵盖电子商务交互、电影评分、商业评论、社交网络、引文网络和网页链接网络等多个领域。数据集按时间顺序分为训练、验证和测试集,并确保了节点和边的稀疏性和度分布的幂律特性,与真实世界网络的特性相匹配。
特点
TGB-Seq数据集的特点在于其低重复率和高序列动态复杂性。与现有数据集相比,TGB-Seq数据集中的重复边数量被显著减少,这使得模型无法简单地依赖于历史边的记忆或聚合,而是必须学习实体之间的复杂序列动态。此外,TGB-Seq数据集涵盖了多个应用领域,能够评估模型在不同场景下的泛化能力。数据集的规模适中到大型,包含数百万至数千万的边,能够反映真实世界网络的规模。
使用方法
使用TGB-Seq数据集时,首先需要从官方网站或Hugging Face下载数据集。然后,可以通过tgb-seq Python包进行数据预处理,包括负样本生成和性能评估。数据集已经按时间顺序划分为训练、验证和测试集,用户可以直接使用这些数据集进行模型的训练和评估。此外,TGB-Seq网站还提供了排行榜,研究人员可以提交自己的方法并与他人进行比较。
背景与挑战
背景概述
未来链接预测是各种现实世界动态系统中的基本挑战。为了解决这一问题,已经开发了许多时间图神经网络(temporal GNNs)和基准数据集。然而,这些数据集通常具有过多的重复边,并且缺乏复杂的时间序列动态,这是许多现实世界应用(如推荐系统和社交网络中的“谁关注谁”)的一个关键特征。这种疏忽导致现有方法无意中低估了学习时间序列动态的重要性,主要关注预测重复边。在本文中,我们展示了现有方法,如GraphMixer和DyGFormer,本质上无法学习简单的时间序列动态,例如“一个关注了OpenAI和Anthropic的用户更有可能关注Meta的AI”。受此问题的启发,我们引入了具有时间序列动态的时间图基准(TGB-Seq),这是一个新的基准,旨在最大限度地减少重复边,挑战模型学习时间序列动态并泛化到未见的边。TGB-Seq包括大型真实世界数据集,涵盖各个领域,包括电子商务交互、电影评分、商业评论、社交网络、引文网络和网络链接网络。基准测试实验表明,当前方法通常在TGB-Seq上遭受显著的性能下降和大量的训练成本,为未来的研究提出了新的挑战和机遇。TGB-Seq数据集、排行榜和示例代码可在https://tgb-seq.github.io/获取。
当前挑战
TGB-Seq数据集的挑战主要集中在两个方面:1) 解决的领域问题:未来链接预测,这在现实世界中的动态系统中是一个基本挑战,如社交网络、电子商务和金融系统。2) 构建过程中所遇到的挑战:现有数据集通常包含过多的重复边,并且缺乏复杂的时间序列动态。TGB-Seq旨在解决这个问题,通过减少重复边并强调时间序列动态,为评估时间GNNs提供了一个新的基准。此外,TGB-Seq数据集的构建过程中也面临着如何有效捕捉复杂时间序列动态的挑战,这对现有方法来说是一个新的难题。
常用场景
经典使用场景
TGB-Seq数据集是专门为评估和挑战时间图神经网络(temporal GNNs)而设计的,其核心在于评估模型学习复杂序列动态的能力。该数据集涵盖了电子商务交互、电影评分、商业评论、社交网络、引文网络和网页链接网络等多个领域的大型真实世界数据集,旨在减少重复边,迫使模型学习序列动态并推广到未见过的边。通过这样的设计,TGB-Seq为未来链接预测提供了一个更具挑战性的基准,推动了temporal GNNs在该领域的研究进展。
解决学术问题
TGB-Seq数据集的提出解决了现有temporal GNNs在处理复杂序列动态时的局限性问题。传统的数据集由于包含过多的重复边,导致模型过分依赖历史边的记忆或聚合,而忽视了序列动态的学习。TGB-Seq通过减少重复边,迫使模型关注序列动态,从而更好地模拟真实世界动态系统中的行为模式。此外,TGB-Seq还解决了现有数据集在评估temporal GNNs性能时的局限性,为更准确地评估模型在真实世界场景下的表现提供了可能。
衍生相关工作
TGB-Seq数据集的提出引发了相关研究领域的广泛关注,并衍生出一系列经典工作。例如,一些研究者利用TGB-Seq数据集评估了现有temporal GNNs在不同场景下的性能,并提出了改进模型的方法。此外,还有一些研究者利用TGB-Seq数据集进行了新的实验,探索了temporal GNNs在不同参数设置下的性能变化,为模型的调优提供了数据支持。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作