arXiv4TGC
收藏arXiv2023-06-08 更新2024-06-21 收录
下载链接:
https://github.com/MGitHubL/arXiv4TGC
下载链接
链接失效反馈官方服务:
资源简介:
arXiv4TGC是一个专为大规模时序图聚类设计的新颖学术数据集,包含arXivAI、arXivCS、arXivMath、arXivPhy和arXivLarge五个子数据集。这些数据集从arXiv开放平台提取,涵盖172个子领域,以论文为节点,引用关系为边,记录了时间依赖的交互。其中最大的数据集arXivLarge包含130万个标记节点和1000万条时序边。数据集创建过程中,首先从原始数据提取节点交互信息,根据领域分类提取边,重编号节点并更新标签列表,最后提供基于位置编码的节点特征。arXiv4TGC不仅适用于时序图聚类,还可用于其他图学习任务,如节点分类,旨在解决现有时序图数据集规模小、标签不可靠的问题。
arXiv4TGC is a novel academic dataset specifically designed for large-scale temporal graph clustering, which includes five sub-datasets: arXivAI, arXivCS, arXivMath, arXivPhy, and arXivLarge. These datasets are extracted from the arXiv open platform, covering 172 sub-fields, with papers as nodes and citation relationships as edges to record time-dependent interactions. The largest sub-dataset, arXivLarge, contains 1.3 million labeled nodes and 10 million temporal edges. During the dataset construction process, node interaction information is first extracted from raw data, edges are extracted based on domain classifications, nodes are renumbered and label lists are updated, and finally node features based on positional encoding are provided. arXiv4TGC is applicable not only to temporal graph clustering but also to other graph learning tasks such as node classification, aiming to address the issues of small scale and unreliable labels of existing temporal graph datasets.
提供机构:
国防科技大学
创建时间:
2023-06-08
搜集汇总
数据集介绍

构建方式
arXiv4TGC数据集的构建基于arXiv开放平台,涵盖了172个子领域。具体而言,研究论文被视为节点,而论文之间的引用关系则被视为时间边。通过从ogbn-papers100M数据集中提取节点交互信息并识别其对应的节点标签,剔除未标记节点及其交互,最终形成了五个子数据集:arXivAI、arXivCS、arXivMath、arXivPhy和arXivLarge。其中,arXivLarge包含130万个标记节点和1300万条时间边。此外,为了确保公平比较,数据集还提供了基于位置编码的节点特征。
特点
arXiv4TGC数据集的主要特点在于其大规模和多样性。首先,数据集包含130万个标记节点和1300万条时间边,为大规模时间图聚类提供了充足的资源。其次,数据集涵盖了172个子领域,确保了研究的多领域适用性。此外,数据集提供了详细的节点特征,包括基于位置编码的特征,增强了模型的表达能力。最后,数据集的公开可用性为研究人员提供了便捷的实验平台。
使用方法
arXiv4TGC数据集适用于多种时间图学习任务,特别是时间图聚类。研究人员可以使用该数据集来训练和评估时间图聚类模型,通过比较不同模型在数据集上的聚类性能,提升模型的鲁棒性和准确性。此外,数据集还可用于节点分类等其他图学习任务,通过构建分类器预测节点标签,评估模型的分类性能。数据集的公开可用性使得研究人员能够轻松获取并应用于各种实验和研究中。
背景与挑战
背景概述
arXiv4TGC数据集是由国防科技大学(National University of Defense Technology)的Meng Liu、Ke Liang、Yue Liu、Siwei Wang、Sihang Zhou和Xinwang Liu等人创建的,旨在解决时间图聚类(Temporal Graph Clustering, TGC)领域中缺乏大规模、可靠数据集的问题。该数据集包括五个子集,即arXivAI、arXivCS、arXivMath、arXivPhy和arXivLarge,其中最大的子集arXivLarge包含130万个带标签的节点和1000万条时间边。这些数据集的构建为评估和改进时间图聚类模型提供了重要的资源,推动了该领域的发展。
当前挑战
arXiv4TGC数据集面临的挑战主要包括:1) 缺乏适用于大规模时间图聚类的公开数据集,现有数据集多为小规模且标签有限,难以有效评估模型性能;2) 数据集构建过程中遇到的标签不匹配问题,部分数据集的节点标签与其特征不符,导致聚类性能低下;3) 数据集的类别不平衡问题,不同类别的节点数量差异较大,可能影响特定任务的效果。此外,尽管arXiv4TGC数据集在时间图聚类任务中表现优异,但其应用范围仍需扩展,以涵盖更多实际场景,如假新闻检测、知识图谱构建等。
常用场景
经典使用场景
arXiv4TGC数据集在时间图聚类任务中展现了其经典应用场景。该数据集通过捕捉学术论文之间的引用关系,构建了大规模的时间图结构,为研究者提供了一个丰富的实验平台。通过分析这些时间图,研究者可以深入探讨节点在不同时间点的动态行为,从而提升时间图聚类算法的性能和鲁棒性。
解决学术问题
arXiv4TGC数据集解决了时间图聚类领域中长期存在的数据稀缺问题。传统的时间图数据集规模较小,且节点标签有限,难以有效评估聚类算法的性能。该数据集通过提供包含1.3百万个标签节点和10百万个时间边的大规模数据,显著提升了模型评估的准确性和可靠性,推动了时间图聚类技术的发展。
衍生相关工作
基于arXiv4TGC数据集,研究者们开发了多种时间图聚类算法,如HTNE、TGC和TGN等。这些算法在处理大规模时间图数据时表现出色,显著提升了聚类效果。此外,该数据集还激发了相关领域的研究,如时间图嵌入、动态网络分析和多模态图学习等,进一步推动了图神经网络技术的发展。
以上内容由遇见数据集搜集并总结生成



