UNR-IDD

github2024-10-25 更新2024-10-27 收录

下载链接：

https://github.com/saghal/Network-Intrusion-Detection

下载链接

链接失效反馈

官方服务：

资源简介：

UNR-IDD数据集用于研究入侵检测系统，包含多种网络流量实例，包括各种类型的攻击和正常行为，适用于多类和二分类任务的机器学习模型训练。

The UNR-IDD Dataset is designed for research on intrusion detection systems. It contains a variety of network traffic instances, including various types of attacks and normal network behaviors, and is suitable for training machine learning models for both multi-class and binary classification tasks.

创建时间：

2024-10-25

原始信息汇总

数据集概述

数据集名称

University of Nevada - Reno Intrusion Detection Dataset (UNR-IDD)

数据集用途

用于研究入侵检测系统，通过分类网络流量来检测恶意网络活动。

分类任务

多类分类：识别特定类型的网络行为或攻击。
- 类别包括：
  - 正常：正常网络功能
  - TCP-SYN：TCP-SYN 洪水攻击
  - PortScan：端口扫描
  - Overflow：流表溢出
  - Blackhole：黑洞攻击
  - Diversion：流量转移攻击
二分类：检测网络流量是正常还是指示攻击。
- 类别包括：
  - 正常：正常网络功能
  - 攻击：网络入侵

数据集概览

包含多个网络流量实例，可用于训练机器学习模型进行多类和二分类任务。
数据集详细信息和下载链接：官方网站

数据准备

数据加载与检查

从CSV文件加载数据到Pandas DataFrame。
显示前几行数据并分析不同标签的分布。

数据分割

训练集：70%
验证集：15%
测试集：15%
使用分层分割确保类别的比例代表性。

特征与目标变量准备

分离特征和目标变量。
删除目标列Label和Binary Label。

分类特征编码

使用LabelEncoder将分类特征转换为数值格式。

删除单一值列

识别并删除具有单一唯一值的列。

数值特征缩放

使用StandardScaler标准化特征。

探索性数据分析

分析特征分布、数值特征的唯一值和分布。
使用箱线图和IQR方法检测异常值。

模型开发

多类分类

使用RandomForestClassifier进行训练和超参数调优。
评估模型性能，包括准确率、分类报告和混淆矩阵。

二分类

使用RandomForestClassifier进行训练。
评估模型性能，包括准确率、分类报告和混淆矩阵。

特征重要性

计算随机森林模型的特征重要性。

结果与分析

多类分类：展示每种攻击类型的模型性能指标。
二分类：展示模型区分正常流量和攻击的能力。

结论

通过适当的数据预处理、特征缩放和模型调优，可以有效实现入侵检测。

搜集汇总

数据集介绍

构建方式

在构建UNR-IDD数据集时，研究团队从实际网络环境中采集了大量网络流量数据，并对其进行了详尽的标注。这些数据涵盖了多种网络攻击类型，如TCP-SYN洪水攻击、端口扫描、流表溢出、黑洞攻击和流量转移攻击，以及正常的网络功能。通过这种方式，数据集不仅捕捉了攻击行为的多样性，还确保了正常网络活动的代表性。此外，数据集的构建过程中采用了分层抽样技术，以确保训练集、验证集和测试集在各类标签上的分布均衡，从而为机器学习模型的训练和评估提供了坚实的基础。

特点

UNR-IDD数据集的显著特点在于其丰富的类别多样性和高度的实用性。该数据集不仅包含了多种具体的网络攻击类型，还提供了二元分类任务，即区分正常流量与攻击流量。这种设计使得数据集能够支持多类分类和二元分类两种任务，满足了不同研究需求。此外，数据集中的每个实例都经过精心标注，确保了数据的高质量。通过标准化和特征编码等预处理步骤，数据集进一步提升了其适用性，使其成为网络入侵检测领域研究的宝贵资源。

使用方法

使用UNR-IDD数据集时，首先需从官方网站下载数据，并将其加载至Pandas DataFrame中进行初步检查。随后，数据集需按照多类分类和二元分类任务分别进行分层抽样，以生成训练集、验证集和测试集。在特征准备阶段，需对分类特征进行编码，并剔除单一值特征，同时对数值特征进行标准化处理。完成数据预处理后，可利用随机森林等机器学习模型进行训练和评估。通过执行提供的Jupyter Notebook，用户可以逐步完成数据加载、预处理、模型训练和性能评估的全过程。

背景与挑战

背景概述

网络入侵检测系统（NIDS）是网络安全领域的重要组成部分，旨在通过机器学习技术识别恶意网络活动。UNR-IDD数据集由内华达大学里诺分校提供，专门用于入侵检测系统的研究。该数据集包含了多种网络流量实例，涵盖了正常行为和多种攻击类型，如TCP-SYN洪水、端口扫描、流表溢出、黑洞攻击和流量转移攻击。UNR-IDD数据集的创建旨在支持多类和二元分类任务，为研究人员提供了一个标准化的基准，以评估和改进入侵检测算法。

当前挑战

UNR-IDD数据集在构建和应用过程中面临多项挑战。首先，数据集中的类别不平衡问题显著，某些攻击类型的样本数量远少于正常流量，这可能导致模型在训练过程中偏向于多数类。其次，网络流量的特征提取和预处理复杂，需要有效的编码和标准化技术以确保模型性能。此外，数据集的规模和多样性要求高效的模型训练和验证策略，以避免数据泄露和确保模型的泛化能力。最后，实际应用中的实时检测需求对模型的计算效率提出了高要求，需要在准确性和速度之间找到平衡。

常用场景

经典使用场景

在网络安全领域，UNR-IDD数据集的经典使用场景主要集中在网络入侵检测系统（NIDS）的开发与优化。该数据集通过提供详细的网络流量实例，支持多类和二元分类任务，帮助研究人员和工程师训练机器学习模型，以识别和分类各种网络攻击行为，如TCP-SYN洪水攻击、端口扫描、流表溢出、黑洞攻击和流量转移攻击。通过这些分类任务，NIDS能够有效地区分正常网络功能与潜在的恶意活动，从而提升网络安全性。

衍生相关工作

UNR-IDD数据集的发布催生了一系列相关研究工作，特别是在网络入侵检测和机器学习结合的领域。许多研究者基于该数据集开发了新的检测模型和算法，如深度学习在入侵检测中的应用、特征选择与工程优化等。此外，该数据集还促进了跨学科的研究合作，推动了网络安全技术的前沿探索和创新。

数据集最近研究