five

CESNET-TimeSeries24

收藏
arXiv2025-09-30 收录
下载链接:
https://github.com/koumajos/isp-forecasting-benchmark
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是一个来自互联网服务提供商网络CESNET3的全面真实世界网络流量数据集,它记录了在40周时间跨度内的多变量时间序列。该数据集包含了以10分钟、1小时和1天为时间间隔进行汇总的流量数据,这些数据提供了用于预测和异常检测的有用指标。其规模涵盖了40周、283个机构、548个机构子网,以及超过27万个独立IP地址。该数据集的任务是网络流量预测。

This is a comprehensive real-world network traffic dataset sourced from the CESNET3 internet service provider network. It documents multivariate time series spanning a 40-week period. The dataset includes traffic data aggregated at 10-minute, 1-hour, and 1-day intervals, providing valuable metrics for network traffic prediction and anomaly detection. It covers data from 283 institutions, 548 institutional subnets, and over 270,000 unique IP addresses across the 40-week span. The core task associated with this dataset is network traffic prediction.
提供机构:
CESNET
搜集汇总
数据集介绍
main_image_url
构建方式
在网络安全监测领域,获取真实且长期的时间序列数据对于异常检测与流量预测模型的评估至关重要。CESNET-TimeSeries24数据集的构建依托于捷克教育科研网络CESNET3,通过部署在边缘路由器前的网络TAPs镜像流量,利用高速监控卡与Ipfixprobe流导出器,以5分钟活跃超时与65秒空闲超时的标准,将原始数据包聚合为IP流记录。随后,流收集服务器过滤瞬态流量与TCP-SYN扫描,并将流记录按10分钟窗口聚合为涵盖流量、数据包、字节数及唯一目标地址等14项指标的时间序列数据点,存储于TimeScaleDB中。整个过程采用自动化处理与即时匿名化,使用随机分配的数据库ID替代真实IP地址、机构与子网信息,确保用户隐私得到严格保护。
特点
该数据集的核心特点在于其真实性与复杂性。数据源自ISP网络,覆盖超过27.5万个活跃IP地址,设备类型多样,包括办公计算机、服务器、无线路由器等,确保了网络实体行为的高度可变性。时间序列涵盖40周,提供10分钟、1小时及1天三种聚合粒度,并包含机构与机构子网层面的聚合视图,支持多尺度分析。数据集囊括了Chandola与Basdekidou所定义的全部异常类型,如点异常、集体异常与趋势异常,且包含周末与节假日标注,为模型训练提供了丰富的上下文信息。其基于真实网络环境的特点,有效避免了合成数据可能带来的性能高估问题。
使用方法
使用该数据集时,研究者需遵循一系列规范以确保评估的可比性与可复现性。首先,应明确说明所使用的数据集部分(如完整IP地址数据集、机构数据集等)及采用的聚合间隔。其次,需详细描述预处理步骤,包括对时间序列间隙的处理、归一化方法以及可能的过滤操作。在模型训练阶段,必须从数据集起始时间2023年10月9日开始,并明确指定训练窗口长度、验证窗口设置及模型重训练策略。预测任务需清晰定义预测范围。评估指标推荐使用均方根误差、对称平均绝对百分比误差与决定系数,并建议通过加权统计量或分布图进行跨时间序列的整体性能比较。此外,还应评估模型的计算需求与部署可行性,相关源代码应公开以促进社区验证。
背景与挑战
背景概述
网络流量异常检测与预测是网络安全领域的关键研究方向,尤其在加密流量日益普及的背景下,传统监控手段面临严峻挑战。CESNET-TimeSeries24数据集由捷克CESNET研究机构与捷克技术大学的研究团队于2024年联合发布,旨在填补网络流量长期时间序列数据集的空白。该数据集基于CESNET3教育科研网络,采集了超过27.5万个活跃IP地址在40周内的流量统计指标,涵盖多维时间序列特征。其核心研究问题聚焦于为基于预测的异常检测算法提供真实、大规模且具有高度变异性的基准数据,以推动网络流量建模与安全威胁发现技术的实际部署与性能评估。
当前挑战
该数据集致力于解决网络流量异常检测与预测领域的双重挑战:其一,在领域问题层面,现有方法常因缺乏长期真实流量数据而面临性能高估风险,加密流量导致的可见性下降进一步加剧了未知攻击(如零日漏洞)的检测难度;其二,在构建过程中,研究团队需应对大规模流量采集与存储的技术瓶颈,在确保用户隐私的前提下完成数据匿名化处理,并有效过滤扫描流量等噪声干扰,同时还需处理时间序列中广泛存在的间隙问题,以保持数据的真实性与可用性。
常用场景
经典使用场景
在网络安全与流量分析领域,CESNET-TimeSeries24数据集为基于时间序列预测的异常检测方法提供了核心验证平台。该数据集通过聚合超过27.5万个活跃IP地址在40周内的网络流数据,生成了涵盖流量、数据包、字节数及连接多样性等多维指标的时序序列。其经典应用场景在于评估和比较各类预测模型(如SARIMA、神经网络等)在真实网络环境下的性能,特别是针对流量行为的短期与长期预测能力。研究者可利用该数据集训练模型,预测未来时间窗口的网络流量模式,并通过比较预测值与实际观测值的偏差来识别潜在异常,从而为加密流量环境下的未知威胁发现提供方法论基础。
解决学术问题
该数据集有效解决了网络流量异常检测研究中长期存在的关键问题:缺乏大规模、长周期、真实世界的基准数据。以往研究多依赖于合成数据或短时采样,导致模型评估存在偏差,难以反映算法在实际部署中的表现。CESNET-TimeSeries24通过提供源自ISP生产网络的多粒度时序数据,涵盖了从点异常、集体异常到趋势异常的完整异常类型,使得学术界能够系统评估无监督异常检测算法在真实场景下的鲁棒性与泛化能力。其意义在于为流量预测与异常检测领域建立了可复现、可比较的评估标准,推动了从理论模型到工程实践的跨越,并促进了针对零日攻击等未知威胁的检测技术发展。
衍生相关工作
围绕CESNET-TimeSeries24数据集,已衍生出一系列聚焦于时间序列预测与网络异常检测的经典研究工作。例如,研究者利用该数据集评估了季节性自回归积分移动平均模型、长短期记忆网络以及时序卷积网络等传统与深度学习模型在流量预测任务上的性能差异。部分工作进一步探索了多变量时序建模方法,通过同时分析流量、数据包和连接多样性等多个指标,提升异常检测的精度与解释性。此外,基于该数据集的开源评估框架与基准测试套件也应运而生,为社区提供了标准化的预处理流程、评估指标与比较基准,促进了算法研究的透明化与可复现性,并催生了针对网络流量概念漂移、在线学习与轻量级部署等挑战的新研究方向。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作