Temporal Graph Benchmark 2.0 (TGB 2.0)

Name: Temporal Graph Benchmark 2.0 (TGB 2.0)
Creator: 魁北克人工智能研究所
Published: 2024-06-14 08:08:04
License: 暂无描述

arXiv2024-06-14 更新2024-06-19 收录

下载链接：

见附录C

下载链接

链接失效反馈

官方服务：

更多采购需求

资源简介：

Temporal Graph Benchmark 2.0（TGB 2.0）是由魁北克人工智能研究所等机构创建的一个新型基准数据集，专注于评估多关系时态图上的未来链接预测方法。该数据集包含四个新的时态知识图（TKG）和四个新的时态异构图（THG），涵盖五个领域，总边数高达5300万。TGB 2.0数据集在节点数、边数和时间戳数量上均显著大于现有数据集。创建过程中，数据集被细分为训练、验证和测试集，确保了评估的重复性和现实性。该数据集主要应用于解决大规模多关系时态图的预测问题，为该领域的研究提供了重要的数据支持。

Temporal Graph Benchmark 2.0 (TGB 2.0) is a novel benchmark dataset developed by institutions including the Quebec Artificial Intelligence Institute, focusing on evaluating future link prediction methods on multi-relational temporal graphs. This dataset contains four new temporal knowledge graphs (TKGs) and four new temporal heterogeneous graphs (THGs), covering five domains, with a total of up to 53 million edges. TGB 2.0 is significantly larger than existing datasets in terms of the number of nodes, edges, and timestamps. During its development, the dataset was split into training, validation, and test sets to ensure the reproducibility and realism of evaluations. This dataset is primarily used to solve prediction tasks on large-scale multi-relational temporal graphs, providing critical data support for research in this field.

提供机构：

魁北克人工智能研究所

创建时间：

2024-06-14

搜集汇总

数据集介绍

构建方式

TGB 2.0 数据集的构建旨在解决多关系时序图上的预测任务，涵盖了知识图谱和异构图两大领域。该数据集在原有 TGB 基础上，引入了多关系时序图数据集，包括 4 个 TKG 数据集和 4 个 THG 数据集，涵盖了知识、政治、社交等多个领域。数据集规模庞大，节点和边数量远超现有数据集，时间跨度广泛，从而更真实地反映了现实世界网络的特点。数据集构建过程中，充分考虑了数据质量，通过数据清洗、去重等手段，保证了数据的一致性和可靠性。

特点

TGB 2.0 数据集具有以下特点：1) 大规模：数据集规模庞大，节点和边数量远超现有数据集，更真实地反映了现实世界网络的特点；2) 多样性：数据集涵盖了知识、政治、社交等多个领域，具有广泛的适用性；3) 时序性：数据集包含了时间戳信息，可以用于研究实体随时间的变化规律；4) 多关系：数据集包含了多种类型的边，可以用于研究实体之间的关系；5) 可重复性：数据集构建过程透明，保证了实验的可重复性。

使用方法

TGB 2.0 数据集可用于以下任务：1) 时序图预测：预测未来时间步长上实体之间的关系；2) 知识图谱补全：预测知识图谱中缺失的事实；3) 社交网络分析：分析社交网络中实体之间的关系。使用 TGB 2.0 数据集时，建议先进行数据探索，了解数据集的基本特征，然后选择合适的模型和方法进行实验。同时，可以利用 TGB 2.0 提供的自动化评估流程，方便地进行实验结果的评估和比较。

背景与挑战

背景概述

多关系时序图作为一种强大的建模工具，能够捕捉现实世界中实体随时间演变的相互关联性。近年来，针对这类图进行机器学习的新模型层出不穷，这进一步凸显了对健壮的评价和标准化基准数据集的迫切需求。然而，此类资源的稀缺性以及实验协议可重复性问题导致的评价复杂性，给研究带来了挑战。为了应对这些挑战，Temporal Graph Benchmark 2.0 (TGB 2.0)应运而生，这是一个专门为评估多关系时序图和异构图上预测未来链接的方法而设计的基准测试框架。TGB 2.0在Temporal Graph Benchmark的基础上，引入了多关系时序图数据集，提供了八个涵盖五个领域的全新数据集，节点、边和时间戳数量高达5300万，远超现有数据集。此外，TGB 2.0还提供了一个可重复且真实的评价流程，为多关系时序图的学习研究提供了重要的推动力。

当前挑战

TGB 2.0数据集带来的挑战主要体现在两个方面：一是领域问题解决，即针对多关系时序图和异构图进行未来链接预测；二是构建过程中的挑战。在领域问题方面，TGB 2.0数据集的规模庞大，对现有方法的可扩展性提出了更高的要求。实验结果表明，许多方法无法在大型数据集上运行，这突出了对更可扩展方法研究的迫切需求。在构建过程中，TGB 2.0需要解决数据集规模大、节点类型和边类型信息丰富带来的挑战。为了克服这些挑战，TGB 2.0采用了基于边缘类型的负采样策略，并提供了自动化的数据处理和评价流程，以确保评价的公平性和可重复性。

常用场景

经典使用场景

Temporal Graph Benchmark 2.0 (TGB 2.0) 数据集的经典使用场景是评估和比较预测未来链接的机器学习方法在多关系时序知识图谱（TKG）和多关系时序异构图谱（THG）上的性能。该数据集包含八个新数据集，涵盖五个领域，拥有多达5300万条边。TGB 2.0 旨在解决现有数据集规模小、评估不一致的问题，通过提供大规模数据集和自动化评估流程，为研究人员提供一个公正、可重复的基准。

实际应用

TGB 2.0 数据集的实际应用场景包括推荐系统、知识库补全和分子学习等。在推荐系统中，TGB 2.0 可以用于预测用户对商品的兴趣，从而提供个性化的推荐。在知识库补全中，TGB 2.0 可以用于预测实体之间的关系，从而完善知识库。在分子学习中，TGB 2.0 可以用于预测分子之间的相互作用，从而加速药物发现。此外，TGB 2.0 还可以用于其他领域，如社会网络分析、事件预测等。

衍生相关工作

TGB 2.0 数据集衍生了多项相关经典工作。例如，RE-GCN 和 CEN 等模型在 TGB 2.0 数据集上的表现表明，利用边类型信息对于获得高性能至关重要。此外，简单的启发式基线方法在 TKG 和 THG 数据集上取得了与更复杂方法相当的性能，这表明了现有方法的改进空间。TGB 2.0 数据集的出现，推动了多关系时序图谱学习的研究进展，并促进了新方法的开发。

以上内容由遇见数据集搜集并总结生成

社区讨论

#经验分享

【我遇到的问题】 • 现象：该数据集的下载链接已失效【相关信息】 • 可考虑访问这个链接获取类似文件~https://www.selectdataset.com/dataset/3688356173feccbcf1f1e490ddc6bc72

5,000+

优质数据集

54 个

任务类型

进入经典数据集