rakeshb4r/N-BaIoT

Name: rakeshb4r/N-BaIoT
Creator: rakeshb4r
Published: 2024-09-13 03:08:02
License: 暂无描述

Hugging Face2024-09-13 更新2024-12-14 收录

下载链接：

https://hf-mirror.com/datasets/rakeshb4r/N-BaIoT

下载链接

链接失效反馈

官方服务：

资源简介：

N-BaIoT数据集是一个用于检测物联网（IoT）设备中僵尸网络攻击的公开数据集。该数据集包含了来自9个商业IoT设备的真实流量数据，这些设备被Mirai和BASHLITE两种僵尸网络感染。数据集包含7062606个实例，115个属性，适用于分类和聚类任务。数据集的属性信息包括流聚合、时间框架和从数据包流中提取的统计信息。研究结果表明，使用深度自编码器进行异常检测可以达到100%的检测率。

The N-BaIoT dataset is used for detecting botnet attacks in the Internet of Things (IoT), containing real traffic data from 9 commercial IoT devices infected by Mirai and BASHLITE. The dataset includes 7,062,606 instances and 115 attributes, suitable for classification and clustering tasks. Attributes include stream aggregation statistics, time frames, and statistics extracted from packet streams. The dataset can be used to distinguish between benign and malicious traffic data, as well as for multi-class classification, including 10 attack types and 1 benign class.

提供机构：

rakeshb4r

搜集汇总

数据集介绍

构建方式

在物联网安全研究领域，N-BaIoT数据集的构建体现了严谨的实证科学方法。研究团队选取了九款商用物联网设备，使其真实感染Mirai和BASHLITE两种主流僵尸网络恶意软件，从而采集到真实的恶意流量数据。数据采集过程模拟了实际攻击场景，确保了数据的生态效度。原始网络流量数据通过先进的流聚合与特征提取技术，转化为包含115个数值型特征的结构化数据集，涵盖了从主机、主机对到端口级的多层次统计信息，并采用阻尼窗口机制捕捉流量随时间衰减的动态特性。

特点

该数据集的核心特点在于其真实性与多维性。它提供了超过七百万条实例，全部源自真实物联网设备在正常与受控攻击状态下的网络流量，有效弥补了该领域公开数据集的稀缺性。数据具有多元时间序列特性，不仅支持基础的二分类（良性 vs. 恶意），更精细地划分为十种具体攻击类型和一个良性类别，为多分类研究提供了可能。特征设计科学全面，从不同粒度（如H, HH, HpHp）和统计维度（如均值、标准差、协方差）刻画网络行为模式，为构建复杂的入侵检测模型奠定了坚实基础。

使用方法

该数据集主要应用于网络入侵检测与异常识别任务。研究者可将其用于训练和评估各类机器学习模型，特别是深度自编码器等无监督或半监督异常检测算法，正如原研究所示范的那样。使用前需理解其数据划分逻辑：针对每个设备，其良性数据被划分为训练集与测试集，而所有恶意数据均纳入测试集。这种划分方式要求模型首先从正常流量中学习模式，进而识别偏离该模式的异常攻击行为。数据可直接用于分类、聚类等任务，是评估物联网安全防御算法性能的基准资源。

背景与挑战

背景概述

随着物联网技术的迅猛发展，其安全威胁日益凸显，尤其是僵尸网络攻击对智能设备构成的严重风险。在此背景下，N-BaIoT数据集于2018年由以色列本·古里安大学等机构的研究团队创建，旨在填补物联网僵尸网络公开数据集的空白。该数据集采集了九种商用物联网设备在真实感染Mirai和BASHLITE恶意软件时的网络流量数据，核心研究问题聚焦于通过网络流量分析实现物联网僵尸网络攻击的精准检测。该数据集的发布极大地推动了物联网安全领域的研究进展，为基于深度学习的异常检测算法提供了关键基准。

当前挑战

在物联网安全领域，准确识别多样化的僵尸网络攻击模式面临显著挑战，攻击行为的隐蔽性和变异性使得传统检测方法难以应对。N-BaIoT数据集构建过程中，研究团队需克服真实攻击环境复现的复杂性，确保数据采集的完整性与代表性。同时，从原始网络数据包中提取具有判别力的多维度统计特征，涉及复杂的流聚合与时间窗口分析，这一过程对特征工程提出了较高要求。此外，数据集中包含的多元序列数据规模庞大，如何有效处理高维度特征并保持检测模型的高效性，亦是后续研究需要解决的关键问题。

常用场景

经典使用场景

在物联网安全研究领域，N-BaIoT数据集为检测和分类恶意网络流量提供了关键基准。该数据集通过捕获九种商用物联网设备在真实感染Mirai和BASHLITE僵尸网络后的流量特征，构建了包含良性及十类攻击行为的多元序列数据。经典应用场景聚焦于利用深度自编码器等无监督学习技术，从海量网络流量中识别异常模式，实现对物联网僵尸网络攻击的高精度检测，为后续模型优化与比较奠定了实证基础。

解决学术问题

该数据集有效缓解了物联网僵尸网络攻击研究中公开数据匮乏的困境，为学术界提供了真实且标注详尽的多类别攻击流量样本。其核心意义在于支持从异常检测到多分类任务的转变，使研究者能够深入探究不同攻击类型的特征差异与演化规律。通过提供标准化评估框架，该数据集推动了物联网安全领域在入侵检测算法设计、特征工程优化及模型泛化能力等方面的系统性进展，显著提升了相关研究的可复现性与可比性。

衍生相关工作

围绕N-BaIoT数据集，一系列经典研究工作相继涌现，进一步拓展了物联网安全研究的深度与广度。例如，Mirsky等人提出的Kitsune框架利用集成自编码器实现在线网络入侵检测，为该数据集的流量特征提取与实时分析提供了方法论基础。后续研究则基于该数据集探索了图神经网络、联邦学习等新兴技术在攻击溯源与协同防御中的应用，推动了检测模型从集中式向分布式架构的演进，持续丰富着物联网安全领域的技术图谱。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集