UGR’16数据集

Name: UGR’16数据集
Creator: 坦佩雷大学信息科技与通信科学学院, 帕多瓦大学信息工程系
Published: 2025-05-22 21:19:30
License: 暂无描述

arXiv2025-05-22 更新2025-05-24 收录

下载链接：

https://github.com/michaelneri/image-based-network-traffic-anomaly-detection

下载链接

链接失效反馈

官方服务：

资源简介：

UGR’16数据集是一个用于网络异常检测的数据集，由帕多瓦大学信息工程系提供。该数据集包括正常背景网络流量和异常流量，异常流量是通过将背景流量与使用高级黑客工具生成的攻击流量相结合而获得的。数据集分为校准集和测试集，校准集用于训练正常性模型，测试集包括干净流量和异常流量。异常流量分为拒绝服务攻击（DoS）和扫描攻击两种类型。数据集采用基于图像的表示方法，将网络流量信息映射到2D矩阵中，以简化处理流程并提高检测效率。

The UGR’16 dataset is a dataset for network anomaly detection, provided by the Department of Information Engineering of the University of Padua. This dataset contains both normal background network traffic and anomalous traffic. The anomalous traffic is obtained by combining the background traffic with attack traffic generated using advanced hacking tools. The dataset is divided into a calibration set and a test set, where the calibration set is used to train the normality model, and the test set includes both clean traffic and anomalous traffic. Anomalous traffic is categorized into two types: Denial of Service (DoS) attacks and scanning attacks. The dataset adopts an image-based representation method, which maps network traffic information into a 2D matrix to simplify the processing workflow and improve detection efficiency.

提供机构：

坦佩雷大学信息科技与通信科学学院, 帕多瓦大学信息工程系

创建时间：

2025-05-22

原始信息汇总

数据集概述

基本信息

标题: Unsupervised Network Anomaly Detection with Autoencoders and Traffic Images (EUSIPCO 2025)
作者:
- Michael Neri*（坦佩雷大学信息技术与通信科学学院，芬兰坦佩雷）
- Sara Baldoni°（帕多瓦大学信息工程系，意大利帕多瓦）

其他信息

用途: 该数据集用于基于自编码器和流量图像的无人监督网络异常检测研究。

搜集汇总

数据集介绍

构建方式

UGR’16数据集通过图像化的方式对网络流量进行表征，构建了一种创新的二维矩阵表示方法。该方法将网络流量数据映射为256×256像素的图像，其中每个像素值反映了特定源-目的IP对之间的流量统计特征，包括字节数、均值和标准差等。数据采集采用1秒时间窗口，确保实时性。通过连接活跃像素的技术（IC表示），显著降低了图像的稀疏性，使得正常流量与异常流量在图像上的差异更为明显。数据集的构建过程还涉及对校准集和测试集的划分，其中校准集用于训练正常流量模型，测试集则包含背景流量和模拟攻击流量。

特点

UGR’16数据集的核心特点在于其图像化的网络流量表示方法，能够直观地展示网络状态和异常模式。数据集包含丰富的攻击类型，如拒绝服务（DoS）和扫描攻击（Scan），每种攻击均有不同的攻击者和受害者数量组合，增加了数据的多样性。通过IC表示技术，数据集有效解决了传统稀疏矩阵在深度学习中的训练难题，使得轻量级的自编码器（AE）和变分自编码器（VAE）能够高效检测异常。此外，数据集的时间窗口设计（1秒）保证了检测的实时性，适用于动态网络环境。

使用方法

使用UGR’16数据集时，首先需将原始网络流量数据转换为二维图像表示（I或IC）。研究人员可利用校准集训练无监督学习模型（如AE或VAE），学习正常流量的特征模式。测试阶段，通过计算输入图像与重构图像之间的误差来检测异常，误差超过阈值则判定为异常。数据集支持多种性能评估指标，如精确率、召回率和F1分数，便于对比不同算法的效果。此外，该数据集还可用于验证其他图像处理或深度学习模型在网络异常检测中的适用性，推动领域内的算法创新。

背景与挑战

背景概述

UGR’16数据集由G. Maciá-Fernández等人于2018年提出，旨在为网络异常检测研究提供高质量的基准数据。该数据集由西班牙格拉纳达大学的研究团队开发，包含真实背景流量和模拟攻击流量，特别关注拒绝服务（DoS）和扫描（Scan）攻击。数据集的设计填补了网络入侵检测系统（IDS）评估中缺乏公开、真实流量数据的空白，成为网络安全领域的重要研究资源。其创新性在于采用时间窗口分割技术，支持细粒度的异常行为分析，为深度学习等先进算法提供了验证平台。

当前挑战

该数据集主要解决网络异常检测中真实攻击样本稀缺、流量特征复杂的问题。构建过程中面临三大挑战：1) 攻击模拟需保持网络行为真实性，团队通过高级黑客工具生成攻击流量；2) 数据标注需精确区分正常与异常流量，研究人员采用受控实验环境确保标签可靠性；3) 流量特征提取难度大，原始数据包含协议类型、数据包大小等多维特征，需设计有效的特征表示方法。当前应用挑战包括：1) 短时窗口（1秒）可能无法捕获长期攻击模式；2) 新型攻击变种检测效果有待验证；3) 处理高维流量数据对轻量级模型仍具挑战性。

常用场景

经典使用场景

UGR’16数据集在网络安全领域被广泛用于无监督网络异常检测研究。该数据集通过1秒时间窗口内的网络流量图像表示，为研究者提供了一种紧凑且高效的网络状态摘要方法。其经典使用场景包括训练自编码器（AE）和变分自编码器（VAE）等深度学习模型，以识别网络中的异常流量模式，如拒绝服务攻击（DoS）和扫描攻击（Scan）。

实际应用

在实际应用中，UGR’16数据集为企业和组织提供了实时网络监控和异常检测的解决方案。通过将网络流量转化为图像，安全系统可以快速识别潜在的攻击行为，如DoS和扫描攻击，从而及时采取防御措施。该数据集的高效表示方法尤其适用于计算资源有限的物联网（IoT）设备和边缘计算环境，为大规模网络的安全管理提供了技术支持。

衍生相关工作

UGR’16数据集衍生了一系列经典研究工作。例如，基于该数据集的IC表示方法，研究者提出了多种轻量级深度学习架构，如AE和VAE，用于网络异常检测。此外，该数据集还被用于比较不同无监督学习方法的性能，如PCA、One-Class SVM和GAN等。相关研究进一步探索了时间序列分析和多维数据表示，以提升对长期攻击模式的检测能力。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集

UGR’16数据集

数据集概述

基本信息

相关论文

其他信息