MQTT-IoT-IDS2020

arXiv2025-09-30 收录

下载链接：

https://ieee-dataport.org/open-access/mqtt-iot-ids2020-mqtt-internet-things-intrusion-detection-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集专注于MQTT协议，在模拟的MQTT网络环境下构建，包含12个传感器、一个代理服务器、一个模拟摄像头以及一个攻击者。数据集涵盖了五种捕获的场景，分别是侵略性扫描、UDP扫描、SSH暴力破解、MQTT暴力破解攻击以及正常操作。此外，该数据集由五个文件组成，其中四个文件包含攻击和正常操作的样本，另一个文件仅包含正常操作数据。预处理步骤包括平衡类别、处理缺失值以及特征选择。数据集规模超过1GB，其任务是物联网流量分类。

This dataset focuses on the MQTT protocol, constructed in a simulated MQTT network environment. It comprises 12 sensors, a broker, a simulated camera, and an attacker. The dataset covers five captured scenarios, namely aggressive scanning, UDP scanning, SSH brute-force attack, MQTT brute-force attack, and normal operation. Additionally, the dataset consists of five files: four contain samples of both attack and normal operation traffic, while the remaining one only includes normal operation data. Preprocessing steps include class balancing, missing value handling, and feature selection. The dataset has a size of over 1GB, and its target task is IoT traffic classification.

搜集汇总

数据集介绍

构建方式

在物联网安全研究领域，MQTT-IoT-IDS2020数据集的构建采用了高度仿真的网络环境。研究团队通过虚拟化技术模拟了包含12个MQTT传感器、代理服务器、摄像头流媒体服务器及攻击节点的完整物联网架构。正常流量通过传感器随机发布不同长度的MQTT消息生成，同时引入0.2%至1%的丢包率以增强现实性。攻击场景则涵盖四种类型：侵略性扫描、UDP扫描、Sparta SSH暴力破解及MQTT协议暴力破解，所有攻击均在正常流量背景下同步录制。数据采集使用tcpdump工具捕获以太网流量，并保存为pcap原始文件格式，最终提取出数据包级、单向流级与双向流级三重特征抽象层次。

特点

该数据集的核心特征体现在其专为MQTT协议安全研究设计的独特架构。作为首个包含MQTT正常与攻击流量的公开数据集，它填补了物联网入侵检测领域的数据空白。数据集不仅涵盖传统网络扫描攻击，更专门纳入了利用MQTT协议命令特性的暴力破解攻击，精准反映了物联网设备通信的特殊威胁模式。特征工程方面，数据集提供三个维度的特征集合：基础数据包特征、单向流统计特征以及双向流交互特征，其中流级特征包含前向与后向流量的时序统计量，为区分伪装性强的MQTT攻击提供了关键判别依据。数据实例分布呈现高度不平衡性，如Sparta攻击实例占比超过六成，这种分布真实再现了实际网络攻击的不均衡特性。

使用方法

该数据集为物联网入侵检测系统的开发与评估提供了标准化实验平台。研究人员可直接使用已处理的特征文件，或基于原始pcap文件进行自定义特征提取。在机器学习模型构建过程中，建议遵循论文中的特征使用策略：针对传统网络攻击检测可优先采用数据包级特征，而对于MQTT协议特定攻击的识别则应侧重流级特征。实验设计可采用五折交叉验证，评估指标需涵盖整体准确率及各类别的精确率、召回率与F1分数。为避免特征偏差，使用时应注意剔除源IP、目标IP等设备特定信息。数据集已按75%训练集与25%测试集完成划分，支持逻辑回归、随机森林等六种经典机器学习算法的性能对比研究，特别适用于探究流特征在物联网异常检测中的增强作用。

背景与挑战

背景概述

随着物联网技术的迅猛发展，其网络安全问题日益凸显，特别是轻量级通信协议如消息队列遥测传输协议在设备间广泛应用，却缺乏针对性的入侵检测研究资源。在此背景下，MQTT-IoT-IDS2020数据集应运而生，由英国阿伯泰大学、斯特拉斯克莱德大学及捷克技术大学的研究团队于2020年联合创建。该数据集的核心研究目标在于填补物联网安全领域的关键空白，通过模拟真实的MQTT网络环境，集成正常操作与多种攻击场景，为机器学习驱动的入侵检测系统提供首个公开可用的基准数据。其创新性在于首次系统性地捕获了MQTT协议特有的暴力破解等攻击模式，并通过多层级特征提取，深刻揭示了物联网安全检测的特殊需求，对推动自适应、场景化的物联网安全防御体系构建具有里程碑意义。

当前挑战

该数据集致力于解决物联网环境中基于MQTT协议的入侵检测这一核心领域问题，其面临的首要挑战在于如何有效区分与正常通信行为高度相似的协议特异性攻击。由于MQTT攻击常利用合法的发布、订阅等命令，其流量模式与良性操作在数据包层级特征上差异甚微，导致传统基于数据包的检测方法效能显著受限。在数据集构建过程中，研究团队亦需克服多重挑战：一是需设计高保真的网络仿真环境，精准模拟12个传感器、代理服务器及摄像头的复杂交互，并引入可控的丢包率以增强现实性；二是需平衡攻击场景的多样性与数据代表性，涵盖从网络扫描到协议暴力破解等异构攻击；三是需从原始流量中提取并验证包级、单向流与双向流三类特征的有效性，这一过程涉及复杂的特征工程与标注工作。

常用场景

经典使用场景

在物联网安全研究领域，MQTT-IoT-IDS2020数据集被广泛应用于基于机器学习的入侵检测系统开发与评估。该数据集模拟了真实的MQTT物联网网络环境，包含正常操作及多种攻击场景，如扫描攻击与MQTT暴力破解攻击。研究人员利用该数据集训练和测试分类模型，探索不同特征层次（如数据包级、单向流与双向流特征）对检测性能的影响，从而优化针对MQTT协议的异常检测算法。

实际应用

在实际应用中，MQTT-IoT-IDS2020数据集为智能家居、工业物联网及智慧城市等场景的安全防护提供了关键数据支撑。基于该数据集训练的检测模型可部署于MQTT代理或边缘设备，实时监控网络流量，识别如暴力破解或异常扫描等威胁。这增强了物联网系统的主动防御能力，有助于降低因协议漏洞导致的数据泄露或服务中断风险。

衍生相关工作

该数据集衍生了一系列经典研究工作，例如基于深度学习的MQTT异常检测框架开发、轻量级入侵检测系统优化以及跨协议攻击比较分析。后续研究常引用该数据集验证新型特征提取方法或混合机器学习模型的性能，进一步探索物联网环境中多类攻击的协同检测机制，促进了物联网安全领域的算法创新与标准化进程。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集