ACI IoT 数据集
收藏arXiv2025-05-21 更新2025-05-22 收录
下载链接:
http://arxiv.org/abs/2505.14592v1
下载链接
链接失效反馈官方服务:
资源简介:
ACI IoT 数据集是一个用于网络安全领域的网络入侵检测系统的基准数据集。该数据集代表真实世界的物联网流量,为评估不同剪枝策略的有效性提供了一个合适的挑战。数据集的具体大小、数据量和Tokens数等详细信息在论文中未提及。该数据集的创建过程也未在论文中描述。ACI IoT 数据集的应用领域是网络安全,旨在解决实时入侵检测问题,尤其是在资源受限的环境中,如物联网(IoT)和战场物联网(IoBT)应用。
The ACI IoT Dataset is a benchmark dataset for network intrusion detection systems in the field of cybersecurity. It represents real-world Internet of Things (IoT) traffic and provides a suitable challenge for evaluating the effectiveness of different pruning strategies. Detailed information such as the specific size, data volume, and number of tokens of the dataset is not mentioned in the paper. The creation process of the dataset is also not described in the paper. The ACI IoT Dataset is applied in the field of cybersecurity, aiming to address real-time intrusion detection problems, especially in resource-constrained environments such as IoT and Internet of Battlefield Things (IoBT) applications.
提供机构:
美国马萨诸塞大学达特茅斯分校 计算机科学系
创建时间:
2025-05-21
搜集汇总
数据集介绍

构建方式
ACI IoT数据集是通过收集一组设备在遭受一系列网络攻击时的数据包数据构建而成,旨在识别网络入侵行为。每个数据条目包含源IP地址、源端口号、目的IP地址、目的端口号、网络协议、源生存时间、数据包总长度、数据包内容、发送时间和标签等字段。数据集经过预处理,移除了可能包含识别信息的发送时间字段,并对IP地址、协议和负载等字段进行了结构化处理,最终形成1515个特征列和一个目标列。
特点
ACI IoT数据集的特点在于其复杂性和真实性,它模拟了真实世界的物联网流量,并包含了多种网络攻击类型,如DNS Flood、Dictionary Attack、Slowloris等。数据集通过欠采样和分组技术平衡了类别分布,确保了模型训练的稳定性。此外,数据集的预处理步骤使其适用于深度学习模型的输入要求,特别是针对资源受限的边缘计算环境。
使用方法
ACI IoT数据集主要用于评估神经网络剪枝技术在网络入侵检测中的效果。研究人员可以基于该数据集训练深度学习模型,并应用不同的剪枝算法(如ADMM-joint、Bert-Theseus、DAIS等)来优化模型的计算效率和存储需求。数据集的使用方法包括数据加载、模型训练、剪枝操作和性能评估,其中性能评估通常采用F1分数等指标来衡量剪枝后模型的准确性和效率。
背景与挑战
背景概述
ACI IoT数据集由美国马萨诸塞大学达特茅斯分校的Alexandre Broggi、Nathaniel Bastian等学者于2023年构建,旨在为边缘计算环境下的嵌入式入侵检测系统提供基准测试数据。该数据集聚焦物联网(IoT)和战场物联网(IoBT)场景,记录了真实网络攻击流量特征,包含DNS Flood、Slowloris等10类攻击的报文级数据。作为首个面向资源受限设备的网络安全专用数据集,其创新性体现在融合了协议分析、载荷特征和时间序列数据,为轻量化深度神经网络在边缘设备上的部署提供了关键实验平台,推动了《Adaptive Pruning of Deep Neural Networks for Resource-Aware Embedded Intrusion Detection》等前沿研究。
当前挑战
该数据集面临双重挑战:在领域问题层面,需解决传统入侵检测模型在边缘设备上计算资源消耗过高的问题,要求算法在保持90%以上F1分数时将参数量压缩至原始1/10;在构建层面存在数据不平衡问题,部分攻击类型样本量不足600条(如UDP Flood仅68条),需通过欠采样和类别分组等策略处理。此外,网络协议字段的异构性(含IPv4地址、协议类型等15维特征)与载荷字节序列的变长特性(最长1500字节)对特征工程提出严峻挑战,研究者必须设计兼顾计算效率与特征保留的预处理方案。
常用场景
经典使用场景
ACI IoT 数据集在网络安全领域被广泛用于评估深度神经网络剪枝技术的有效性。该数据集包含真实的物联网流量数据,能够模拟复杂的网络攻击场景,如DNS Flood、Slowloris和SYN Flood等。研究人员利用该数据集测试不同剪枝算法在保持模型预测性能的同时,减少模型大小和计算资源消耗的能力。
解决学术问题
ACI IoT 数据集解决了深度神经网络在资源受限环境中的部署问题。通过剪枝技术,研究人员能够显著减少模型的参数量和计算复杂度,同时保持较高的入侵检测准确率。该数据集为评估剪枝算法的泛化能力提供了标准化的测试平台,推动了轻量级高效模型在网络安全领域的研究。
衍生相关工作
ACI IoT 数据集衍生了多项经典研究工作,包括ADMM-joint、BERT-Theseus和ThiNet等剪枝算法的改进与比较。这些工作不仅验证了剪枝技术在网络安全领域的适用性,还提出了Iterative-Theseus等新方法,进一步优化了模型压缩与性能平衡。相关成果为后续研究提供了重要的技术参考和实验基础。
以上内容由遇见数据集搜集并总结生成



