five

TeleLogs

收藏
arXiv2025-07-30 更新2025-07-31 收录
下载链接:
https://huggingface.co/datasets/netop/TeleLogs
下载链接
链接失效反馈
官方服务:
资源简介:
TeleLogs是一个针对网络故障排除场景的合成数据集,模拟了网络驱动测试环境,基于真实的网络工程参数。数据集包括网络配置参数、用户面数据以及可能的根本原因。数据集旨在为研究根因分析提供基准,并促进推理模型的开发。

TeleLogs is a synthetic dataset designed for network troubleshooting scenarios. It simulates network-driven test environments based on real-world network engineering parameters. The dataset encompasses network configuration parameters, user plane data, and potential root causes. This dataset aims to provide a benchmark for root cause analysis research and facilitate the development of reasoning models.
提供机构:
华为技术有限公司巴黎研究中心, 法国
创建时间:
2025-07-30
搜集汇总
数据集介绍
main_image_url
构建方式
TeleLogs数据集通过模拟5G无线网络中的实际故障场景构建而成,采用网络驱动测试环境生成合成数据。该数据集基于真实的网络工程参数和用户平面数据,模拟了用户设备在移动过程中与多个基站的交互。数据生成过程中,研究人员精心设计了多种故障场景,包括天线配置错误、覆盖距离问题、干扰条件等,并提供了详细的网络配置参数和性能指标。每个故障实例均包含完整的网络状态描述、观测症状以及专家标注的根本原因,确保了数据的全面性和准确性。
特点
TeleLogs数据集具有高度专业化的领域特性,专注于5G网络故障诊断场景。其显著特点包括:1) 完整覆盖网络配置参数和实时性能指标;2) 明确定义的8类典型故障原因;3) 结构化的问题描述和专家级标注;4) 包含训练集和测试集以支持模型开发与评估。数据集特别关注下行吞吐量下降这一关键性能问题,通过多样化的故障场景设计,能够全面评估模型的因果推理能力。数据中的网络参数和性能指标均采用标准化格式,便于机器学习模型处理和分析。
使用方法
TeleLogs数据集专为评估和开发网络故障根因分析模型而设计。使用该数据集时,研究人员可以:1) 将网络配置参数、用户平面数据和症状描述作为模型输入;2) 训练模型从8类预定义的潜在原因中识别最可能的故障根源;3) 评估模型生成的诊断解释的准确性和合理性。数据集支持两种主要应用方式:监督学习模式下,利用标注数据进行模型训练;评估模式下,通过测试集衡量模型的诊断性能。使用过程中需特别注意网络参数与性能指标间的复杂关联,以及不同故障场景间的因果关系。
背景与挑战
背景概述
TeleLogs数据集由华为技术有限公司巴黎研究中心、中国华为技术有限公司以及阿联酋哈利法科技大学的联合研究团队于2025年创建,旨在推动5G无线网络根因分析(RCA)领域的研究。该数据集通过模拟真实网络驱动测试环境,系统性地构建了包含网络工程参数、用户平面数据及专家标注的故障诊断场景,解决了传统RCA方法在可解释性、领域知识依赖和因果推理方面的核心问题。作为首个公开的5G网络故障诊断基准数据集,TeleLogs为大型语言模型在复杂系统诊断中的适应性研究提供了重要实验平台,显著促进了网络运维管理领域智能化诊断技术的发展。
当前挑战
TeleLogs数据集面临双重挑战:在领域问题层面,5G网络故障诊断需处理高维异构数据中的复杂因果关系,传统机器学习方法难以兼顾诊断准确性与可解释性;在构建过程中,研究团队需克服多模态数据对齐、专家知识系统化标注等难题,特别是如何平衡仿真数据的真实性与隐私保护要求。数据集特有的8类根因标签体系要求模型具备细粒度的参数关联分析能力,而动态网络环境下症状-根因的非线性映射关系更增加了建模复杂度。
常用场景
经典使用场景
在5G无线网络的运维管理中,TeleLogs数据集被广泛应用于根因分析(RCA)任务。该数据集通过模拟真实的网络驱动测试环境,提供了丰富的网络工程参数和用户平面数据,使得研究人员能够基于这些数据训练和评估大型语言模型(LLMs)的诊断能力。TeleLogs的经典使用场景包括识别网络故障的根本原因,如吞吐量下降、信号干扰和配置错误等,为网络运维提供了强有力的支持。
解决学术问题
TeleLogs数据集解决了根因分析领域中的多个关键学术问题。首先,它填补了现有数据集中缺乏高质量标注和结构化解释的空白,为模型训练提供了可靠的基础。其次,该数据集通过模拟多样化的故障场景,帮助研究人员评估模型在复杂网络环境中的泛化能力。此外,TeleLogs还支持多步推理和因果关系的建模,推动了可解释性人工智能在运维管理中的应用。
衍生相关工作
TeleLogs数据集催生了一系列相关的研究工作。例如,基于该数据集开发的Qwen2.5-RCA模型在根因分析任务中表现出色,成为该领域的基准模型之一。此外,研究人员还利用TeleLogs探索了多智能体协作、强化学习优化和可解释性增强等方向,进一步拓展了根因分析的应用范围。这些衍生工作不仅验证了数据集的实用价值,还为未来的研究提供了新的思路和方法。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作