TeleGraph
收藏arXiv2024-01-14 更新2024-08-06 收录
下载链接:
http://arxiv.org/abs/2204.07703v2
下载链接
链接失效反馈官方服务:
资源简介:
TeleGraph是一个专为层次链接预测设计的基准数据集,由华为诺亚方舟实验室等机构创建。该数据集包含41,143个节点,分为三类设备,并附带丰富的节点属性。数据集通过结合路径日志和警报日志构建,旨在评估和推动链接预测技术的发展。TeleGraph特别适用于研究高度稀疏和层次化的网络结构,如电信网络,以解决网络稳定性和可靠性中的故障管理问题。
TeleGraph is a benchmark dataset specifically designed for hierarchical link prediction, developed by Huawei Noah's Ark Lab and other research institutions. It consists of 41,143 nodes classified into three categories of devices, accompanied by rich node attributes. Built by integrating path logs and alert logs, this dataset aims to evaluate and promote the advancement of link prediction technologies. TeleGraph is particularly suitable for investigating highly sparse and hierarchical network structures such as telecommunication networks, to address fault management problems in the context of network stability and reliability.
提供机构:
华为诺亚方舟实验室
创建时间:
2022-04-16
搜集汇总
数据集介绍

构建方式
在电信网络故障管理的实际需求驱动下,TeleGraph数据集以某城域电信网络接入层为蓝本构建。原始数据涵盖路径日志与告警日志,路径日志记录了信息在设备间的有序传递,告警日志则捕获了2019年4月12日至16日间超过六百万条、涵盖240种类型的设备状态事件。通过将路径与告警信息关联至对应设备,最终形成包含41,143个节点(分为路由器、微波传输、基站三类)和41,424条边的无向异构图。节点属性由各设备的历史告警类型及发生时间序列构成,从而将拓扑结构与语义丰富的设备状态信息融为一体。
特点
该数据集呈现出极高的稀疏性与树状层次结构,其网络密度仅为0.000049,双曲率δ值为0,表明其拓扑近似于一棵树,但局部区域存在少量环状结构(最大环含13个节点)。节点度分布遵循幂律,绝大多数节点度数低于3,仅极少数枢纽节点(如路由器)具有较大度数。此外,节点属性以240种告警类型的多值时间序列形式呈现,为模型提供了超越单纯拓扑的语义线索,使得该数据集成为评估链路预测算法在稀疏、层次化场景下性能的独特基准。
使用方法
使用TeleGraph时,通常将边集按85%、5%、10%的比例划分为训练、验证和测试集。节点特征可采用One-hot编码(基于告警是否出现)或计数编码(基于告警发生次数),随机初始化则作为无属性情况下的对照。评估指标采用AUC与平均精度(AP)。实验表明,基于子图分类的SEAL方法表现最优(测试AUC达79.48%),而依赖闭合三角结构的启发式方法(如CN、AA)效果接近随机猜测(AUC约51%),凸显了该数据集对新型链路推理技术的挑战与推动价值。
背景与挑战
背景概述
链路预测作为网络结构化数据研究中的核心问题,因其在社交网络、知识图谱及通信网络等领域的广泛应用而备受关注。然而,现有基准数据集多集中于通用网络结构,缺乏对高度稀疏且具有树状层次结构网络的系统性评估。为弥补这一空白,华为诺亚方舟实验室的周敏团队联合复旦大学与香港中文大学的研究人员,于2022年构建了TeleGraph数据集。该数据集源自真实城域电信网络的接入层,包含41,143个节点(分为路由器、微波传输设备与基站三类)及41,424条边,并配备了涵盖240种告警类型的丰富节点属性。其拓扑呈现显著的树状层次特征,局部区域存在网格或环形结构,密度仅为0.000049,双曲率趋近于零,完美契合了稀疏与层次化网络的典型特性。TeleGraph的发布为评估和推动链路预测算法在真实复杂场景下的表现提供了关键基准,尤其对电信网络中的故障管理任务具有重要实践意义。
当前挑战
TeleGraph数据集所呈现的核心挑战源于其高度稀疏与树状层次化的拓扑特性。一方面,传统基于闭合三角结构的启发式方法(如共同邻居、Adamic-Adar及个性化PageRank)在该数据集上完全失效,其AUC与AP值均接近随机猜测水平(约0.51),暴露出此类方法对稀疏层次网络的结构性盲区。另一方面,尽管图神经网络方法(如GCN、GAT、HGCN)通过监督学习取得了明显优势,但如何有效编码和利用高维告警属性仍是一大难题——实验表明,随机初始化特征会导致模型性能退化至随机水平,而简单的独热编码虽优于计数编码,却难以充分捕捉语义信息。此外,数据集构建过程中,多厂商设备、异构标准(2/3/4/5G)及不同网管系统的数据整合带来了拓扑重建的复杂性,路径日志与告警日志的关联处理亦需精细的预处理策略。这些挑战共同指向一个关键问题:如何在近乎树状且信息稀疏的结构中,同时融合拓扑与语义特征以实现稳健的链路推断。
常用场景
经典使用场景
在链路预测研究中,TeleGraph 作为首个面向高度稀疏与层次化电信网络的基准数据集,被广泛用于评估和对比各类链路预测算法的性能。该数据集包含41,143个节点和41,424条边,呈现出极低的密度与近乎零的双曲率,构成典型的树状拓扑结构。研究者通常利用其丰富的节点属性(240种告警类型)和异构节点类型(路由器、传输设备、基站),在监督学习框架下测试启发式方法、嵌入方法及图神经网络方法对缺失连接推断的有效性。其经典使用场景聚焦于在近乎树状的稀疏网络中验证算法对局部结构信息的捕捉能力,尤其关注模型能否突破对闭合三角结构的过度依赖。
解决学术问题
TeleGraph 的提出有效填补了层次化稀疏网络基准数据的空白,解决了现有链路预测方法在此类拓扑上性能评估不足的学术困境。传统启发式方法(如共同邻居、Adamic-Adar)因依赖三角形闭合结构,在树状网络中表现近乎随机猜测,而基于图自编码器的方法虽有所提升,但仍难以充分利用语义属性。该数据集揭示了图神经网络在稀疏层次化场景中的局限性,并推动研究者重新审视节点特征编码与结构信息融合的关键挑战。其意义在于为链路预测领域树立了新的评估标杆,促使学界关注真实世界中广泛存在的树状网络(如通信网、蛋白质互作网)的特殊性,从而催生了更鲁棒的算法设计方向。
衍生相关工作
TeleGraph 的发布催生了一系列针对层次化稀疏网络的链路预测研究工作。其中,SEAL 方法通过将链路预测转化为子图分类问题并显式编码节点位置,在该数据集上取得了显著优于其他方法的表现,验证了局部子图结构在树状网络中的关键作用。后续工作如 NeoGNN 尝试融合重叠邻域结构与特征图神经网络,虽未完全突破性能瓶颈,但推动了结构信息与属性信息联合建模的探索。此外,双曲图神经网络(如 HGCN)虽在理论上适合树状数据,但在 TeleGraph 上的表现与欧几里得模型相当,促使研究者关注属性特征对双曲几何表示能力的制约,进而衍生出更精细的特征工程与混合空间编码策略。
以上内容由遇见数据集搜集并总结生成



