UNSW-NB15_Dataset

github2024-11-02 更新2024-11-03 收录

下载链接：

https://github.com/ENKI0311/UNSW-NB15_Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含多个特征，代表网络流量的不同方面。关键特征包括连接持续时间、发送和接收的字节数、发送和接收的数据包数等。这些特征有助于识别网络活动中的异常行为，如拒绝服务攻击和数据泄露尝试。

This dataset contains multiple features representing different aspects of network traffic. Key features include connection duration, the number of bytes sent and received, the number of packets sent and received, and so on. These features enable the identification of anomalous behaviors in network activities, such as denial-of-service attacks and data leakage attempts.

创建时间：

2024-11-02

原始信息汇总

数据集概述

数据集简介

该数据集用于网络入侵检测系统（NIDS）的机器学习项目，旨在通过网络流量数据检测潜在威胁。数据集包含多个特征，代表网络流量的不同方面。

关键特征

dur (Duration): 连接的持续时间，有助于识别异常活动，如在拒绝服务（DoS）攻击中常见的非常长或非常短的连接。
sbytes 和 dbytes (Source and Destination Bytes): 表示发送和接收的数据量，可指示异常数据流，如数据泄露尝试。
spkts 和 dpkts (Source and Destination Packets): 连接期间发送和接收的数据包数量。发送和接收数据包之间的巨大差异可能表明可疑行为。

数据处理

探索性数据分析 (EDA): 对数据集进行详细分析，以发现关键模式和关系。
主成分分析 (PCA): 用于降低数据维度，同时保留大部分信息，确保减少后的数据集对分类模型仍然具有信息量。

机器学习方法

特征工程

字节和数据包比率: 计算源和目标数据包/字节的比率，以更好地捕捉攻击场景中常见的非对称网络活动。
交互特征: 派生新的特征，表示关键网络指标之间的交互，进一步增强区分正常和异常活动的能力。

模型训练

训练模型: 包括逻辑回归、随机森林分类器和支持向量机（SVM）。随机森林分类器表现最佳，在交叉验证中几乎达到完美的准确率、精确率、召回率和F1分数。

模型评估

评估指标: 重点关注精确率、召回率和F1分数在网络安全环境中的意义。随机森林模型在这些指标上均表现出色，显示出其在实际网络安全应用中的适用性。

部署

Flask API: 将训练好的随机森林分类器部署为Flask API，可接收网络流量特征输入并返回预测结果。
API端点: /predict，输入为包含网络流量特征的JSON，输出为预测结果（0表示正常，1表示恶意）。

未来工作

无监督异常检测: 集成无监督模型以识别未知攻击类型。
实时流处理: 开发流处理能力，实现网络数据包的实时分类。
增强API安全性: 实施用户认证和速率限制，提高API的安全性。

搜集汇总

数据集介绍

构建方式

在构建UNSW-NB15数据集时，研究者们精心设计了多个特征以捕捉网络流量的关键属性。这些特征包括连接的持续时间（`dur`）、源和目标字节数（`sbytes`和`dbytes`）以及源和目标数据包数（`spkts`和`dpkts`）。通过详细的数据探索分析（EDA）和主成分分析（PCA），研究者们成功地降低了数据的维度，同时保留了大部分信息，从而形成了一个既简洁又信息丰富的特征集。这种构建方式确保了数据集在训练网络入侵检测系统（NIDS）时的高效性和准确性。

使用方法

使用UNSW-NB15数据集进行网络入侵检测时，用户首先需要安装必要的Python环境和依赖库，如Flask和Scikit-learn。随后，可以通过克隆GitHub仓库并运行Flask API来启动模型服务。API提供了一个`/predict`端点，用户可以通过发送包含网络流量特征的JSON数据来获取预测结果。这种使用方法不仅简化了模型的部署过程，还使得实时网络流量分析成为可能，从而在实际的网络安全环境中发挥重要作用。

背景与挑战

背景概述

随着数字网络的快速扩展，网络安全问题日益突出，网络入侵检测系统（NIDS）成为保护敏感数据的关键工具。UNSW-NB15数据集由新南威尔士大学（UNSW）的研究团队创建，旨在通过机器学习技术识别网络流量中的潜在威胁。该数据集包含了多种网络流量特征，如连接持续时间、数据传输量和数据包数量等，旨在训练模型以区分正常和可疑的网络活动。UNSW-NB15数据集的开发不仅推动了网络入侵检测技术的发展，还为网络安全领域的研究提供了宝贵的资源。

当前挑战

UNSW-NB15数据集在构建过程中面临了多重挑战。首先，数据集需要处理大量复杂的网络流量特征，这些特征之间存在高度的相关性和冗余，增加了特征工程的难度。其次，网络攻击手段不断演变，数据集中可能缺乏对新型攻击的覆盖，这要求模型具备识别未知攻击的能力。此外，实时检测网络入侵需要高效的流处理技术，以确保模型能够在短时间内对大量数据进行分类。最后，模型的部署和实际应用中，如何确保API的安全性和可靠性也是一个重要的挑战。

常用场景

经典使用场景

UNSW-NB15数据集在网络安全领域中被广泛应用于网络入侵检测系统的开发与优化。通过分析网络流量数据中的多种特征，如连接持续时间、数据包数量和字节传输量，该数据集支持构建高效的机器学习模型，以区分正常与恶意网络活动。具体应用场景包括实时监控网络流量，识别潜在的拒绝服务攻击（DoS）、数据泄露等威胁，从而提升网络防御能力。

解决学术问题

UNSW-NB15数据集解决了网络安全领域中常见的入侵检测问题，特别是在自动化和精准化检测方面。通过提供丰富的网络流量特征，该数据集帮助研究人员开发和验证各种机器学习算法，如随机森林分类器和支持向量机，以实现高精度的入侵检测。其意义在于推动了网络安全技术的进步，增强了网络防御系统的智能化和响应速度。

实际应用

在实际应用中，UNSW-NB15数据集支持开发的网络入侵检测系统可集成到企业或组织的网络安全架构中，作为安全信息和事件管理系统（SIEM）的一部分。通过实时分析网络流量，该系统能够及时发现并预警潜在的网络威胁，如恶意软件传播、未授权访问等，从而保护敏感数据和系统资源。此外，该系统还可通过API接口实现与现有安全工具的无缝对接，提升整体网络安全水平。

数据集最近研究