five

CESNET-TimeSeries24|网络流量分析数据集|异常检测数据集

收藏
arXiv2024-09-28 更新2024-10-01 收录
网络流量分析
异常检测
下载链接:
https://zenodo.org/records/13382427
下载链接
链接失效反馈
资源简介:
CESNET-TimeSeries24数据集是由捷克技术大学和CESNET合作创建的,用于网络流量异常检测和预测的时间序列数据集。该数据集包含了40周内275,124个活跃IP地址的网络流量数据,涵盖了多种设备和网络异常类型。数据集的创建过程包括数据捕获、时间序列聚合和匿名化处理,确保了数据的真实性和隐私保护。该数据集主要应用于网络流量监控、资源分配和服务编排等领域,旨在解决网络流量预测和异常检测中的实际问题。
提供机构:
捷克技术大学
创建时间:
2024-09-28
AI搜集汇总
数据集介绍
main_image_url
构建方式
CESNET-TimeSeries24数据集通过长期监控CESNET3网络中选定的统计指标构建而成。该数据集收集了40周内275,000多个活跃IP地址的网络流量数据。监控系统位于网络边界,通过IP流监控系统将数据包聚合为IP流记录,这些记录包含了单一连接的通信元数据。数据收集过程中采用了自动数据处理和即时数据匿名化,确保用户隐私得到保护。最终,数据集包含了660亿个IP流,总计约3.7拍字节的数据量,为网络流量预测和异常检测提供了丰富的真实世界数据。
特点
CESNET-TimeSeries24数据集具有高度的多样性和真实性,涵盖了多种网络实体的行为,包括办公室电脑、NAT设备、服务器、WiFi路由器、蜜罐和游戏主机等。数据集还包含了多种类型的网络异常,确保了对异常检测方法的全面评估。此外,数据集提供了机构和IP子网级别的时间序列数据,覆盖了所有可能的异常检测或预测范围,为研究者提供了多层次的分析视角。
使用方法
使用CESNET-TimeSeries24数据集时,研究者可以针对不同的网络实体(如IP地址、机构和子网)进行时间序列分析。数据集提供了多种聚合间隔(10分钟、1小时和1天),便于不同时间尺度的异常检测和预测模型训练。研究者应明确使用的数据集部分和聚合间隔,并详细记录所有预处理步骤,包括过滤、归一化和处理时间序列中的间隙。此外,建议从数据集的时间起点开始训练模型,以确保结果的可比性。
背景与挑战
背景概述
CESNET-TimeSeries24数据集由捷克教育和科学网络(CESNET3)的网络流量监控数据构建,旨在解决网络流量异常检测和预测领域的关键问题。该数据集由Josef Koumar、Karel Hynek、Tomáš Čejka和Pavel Šiška等研究人员于2023年10月至2024年7月期间创建,涵盖了40周内超过275,000个活跃IP地址的网络行为。其核心研究问题在于提供一个真实且多样化的网络流量数据集,以评估和改进基于预测的异常检测算法。该数据集的发布填补了现有研究中缺乏长期真实世界数据集的空白,对网络流量监控和安全领域的研究具有重要影响。
当前挑战
CESNET-TimeSeries24数据集面临的挑战主要包括两个方面。首先,网络流量异常检测领域的挑战在于如何有效识别和分类加密流量中的安全威胁,尤其是在缺乏实时威胁数据集的情况下。其次,数据集构建过程中的挑战包括处理大规模网络流量数据的复杂性、确保数据隐私和匿名化,以及处理时间序列数据中的间隙和噪声。此外,该数据集还需应对如何准确评估和比较不同预测模型的性能,以及如何在实际网络环境中有效部署这些模型的问题。
常用场景
经典使用场景
CESNET-TimeSeries24数据集在网络流量异常检测和预测领域展现了其经典应用。该数据集通过收集来自CESNET3网络的40周时间序列数据,涵盖了超过275,000个活跃IP地址的行为,为研究人员提供了丰富的网络流量信息。这些数据被广泛用于开发和验证基于预测的异常检测算法,通过比较预测值与实际观测值的差异来识别网络中的异常行为。此外,该数据集还支持多种时间聚合间隔,如10分钟、1小时和1天,从而适应不同尺度的流量分析需求。
实际应用
在实际应用中,CESNET-TimeSeries24数据集被广泛用于网络流量管理和安全监控。例如,ISP和大型企业可以利用该数据集来优化网络资源分配,通过预测未来的流量需求来动态调整带宽和服务质量。此外,安全团队可以利用数据集中的异常检测功能,实时监控网络流量,识别潜在的恶意活动,如DDoS攻击和零日漏洞利用。这些应用不仅提高了网络的稳定性和安全性,还为网络管理员提供了更精细的流量控制能力。
衍生相关工作
CESNET-TimeSeries24数据集的发布激发了大量相关研究工作,特别是在网络流量预测和异常检测领域。许多研究团队基于该数据集开发了新的预测模型和异常检测算法,如基于深度学习的流量预测模型和多变量时间序列分析方法。此外,该数据集还被用于验证现有算法的有效性,如SARIMA模型和LSTM网络在流量预测中的应用。这些研究不仅推动了学术界对网络流量行为的理解,还为工业界提供了实用的工具和方法。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国空气质量数据集(2014-2020年)

数据集中的空气质量数据类型包括PM2.5, PM10, SO2, NO2, O3, CO, AQI,包含了2014-2020年全国360个城市的逐日空气质量监测数据。监测数据来自中国环境监测总站的全国城市空气质量实时发布平台,每日更新。数据集的原始文件为CSV的文本记录,通过空间化处理生产出Shape格式的空间数据。数据集包括CSV格式和Shape格式两数数据格式。

国家地球系统科学数据中心 收录

学生课堂行为数据集 (SCB-dataset3)

学生课堂行为数据集(SCB-dataset3)由成都东软学院创建,包含5686张图像和45578个标签,重点关注六种行为:举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景,通过YOLOv5、YOLOv7和YOLOv8算法评估,平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础,解决教育领域中学生行为数据集的缺乏问题。

arXiv 收录

中国农村金融统计数据

该数据集包含了中国农村金融的统计信息,涵盖了农村金融机构的数量、贷款余额、存款余额、金融服务覆盖率等关键指标。数据按年度和地区分类,提供了详细的农村金融发展状况。

www.pbc.gov.cn 收录

Materials Project

材料项目是一组标有不同属性的化合物。数据集链接: MP 2018.6.1(69,239 个材料) MP 2019.4.1(133,420 个材料)

OpenDataLab 收录

Wind Turbine Data

该数据集包含风力涡轮机的运行数据,包括风速、风向、发电量等参数。数据记录了多个风力涡轮机在不同时间点的运行状态,适用于风能研究和风力发电系统的优化分析。

www.kaggle.com 收录