CIC-IoT-22
收藏arXiv2023-07-03 更新2024-06-21 收录
下载链接:
http://205.174.165.80/IOTDataset/CIC_IOT_Dataset2022
下载链接
链接失效反馈官方服务:
资源简介:
CIC-IoT-22数据集由赫瑞瓦特大学创建,旨在通过网络数据包特征进行设备识别。该数据集包含40种设备,涵盖IP和非IP设备,记录了设备在不同状态(如活动和空闲)下的网络行为。数据集通过实际使用场景收集,提供了丰富的设备行为数据,用于验证IoTDevID方法的有效性。此数据集的公开分享旨在提高研究透明度和可重复性,支持更广泛的模型性能测试和改进。
The CIC-IoT-22 dataset was created by Heriot-Watt University for device identification via network packet features. It covers 40 types of devices including both IP and non-IP devices, and records the network behaviors of these devices under different states such as active and idle. Collected from real-world usage scenarios, the dataset provides abundant device behavior data for validating the effectiveness of the IoTDevID method. The public release of this dataset aims to enhance research transparency and reproducibility, and support broader model performance testing and improvement.
提供机构:
赫瑞瓦特大学
创建时间:
2023-07-03
搜集汇总
数据集介绍

构建方式
CIC-IoT-22数据集的构建方法是在多种设备状态下收集网络流量数据。这些状态包括设备的启动、交互、特定场景下的使用、遭受攻击时的行为、空闲状态和活跃状态。数据集涵盖了IP和非IP设备,并记录了设备在不同使用情况下的数据。数据收集过程中使用了Python、Scapy和Wireshark等工具进行特征提取。在数据集构建过程中,还对数据进行了一些调整,以确保数据的多样性和代表性。
使用方法
CIC-IoT-22数据集的使用方法包括数据预处理、特征提取、模型训练和评估等步骤。在数据预处理阶段,需要对数据进行清洗、归一化和去重等操作。特征提取阶段,可以使用Python、Scapy和Wireshark等工具从数据包中提取特征。模型训练阶段,可以使用多种机器学习算法对设备进行识别。在评估阶段,可以使用F1分数等指标对模型的性能进行评估。此外,还可以使用数据集进行模型调优和参数优化等操作,以提高模型的准确率和鲁棒性。
背景与挑战
背景概述
在物联网(IoT)设备迅速普及的时代,识别、诊断和保护这些设备成为了关键任务。IoTDevID方法(IEEE Internet of Things '22)提出了一种使用网络数据包特征进行设备识别的机器学习方法。本文介绍了一项验证研究,通过在一个新的数据集上测试IoTDevID方法的核心组件,即其特征集和其聚合算法,来探索其有效性。新的数据集(CIC-IoT-2022)提供了比早期数据集更多的优势,包括更多的设备数量、相同设备的多个实例、IP和非IP设备数据、正常(良性)使用数据以及多样化的使用配置文件,如活动和空闲状态。使用这个独立的数据集,我们探索了IoTDevID核心组件的有效性,并检查了新数据对模型性能的影响。结果表明,数据多样性对于模型性能至关重要。例如,使用活动使用数据训练的模型优于使用空闲使用数据训练的模型,多个使用数据同样提高了性能。IoTDevID的结果非常强大,对于31个仅IP设备类别,F1分数为92.50,类似于我们在以前数据集上的结果。在所有情况下,IoTDevID聚合算法都提高了模型性能。对于非IP设备,我们获得了40个设备类别的78.80F1分数,尽管数据量较少,这证实了数据量对于模型的重要性。
当前挑战
物联网设备识别领域面临的主要挑战包括:1)数据泄露问题,由于不适当的训练和测试数据分离,导致模型性能的过度估计;2)过度特定的特征,导致模型泛化能力差;3)选择性设备测试,导致结果可靠性受损;4)缺乏透明度,导致实验验证和重复性困难。此外,物联网设备识别还面临着数据多样性不足的挑战,例如,在Aalto数据集中缺乏实际使用数据,在UNSW数据集中缺乏关于设备使用性质(活动或空闲)的信息。CIC-IoT-22数据集的出现部分解决了这些问题,但其非IP设备数据仍然有限,且缺乏正常使用数据。
常用场景
经典使用场景
在物联网(IoT)设备的快速普及时代,识别、诊断和安全防护这些设备成为关键任务。CIC-IoT-22数据集提供了一个新的视角,它包含大量设备、多种实例、IP和非IP设备数据、正常使用数据以及多样化的使用配置文件,如活动状态和空闲状态。这使得CIC-IoT-22成为测试和验证IoT设备识别方法的有效工具,特别是对于IoTDevID方法。IoTDevID方法使用网络数据包特征进行设备识别,并通过聚合算法提高识别成功率。CIC-IoT-22数据集的多样性使其成为评估IoTDevID方法鲁棒性和泛化能力的理想选择。
解决学术问题
CIC-IoT-22数据集解决了传统物联网设备识别方法中存在的几个关键问题。首先,它通过包含更多设备和多样化的使用场景,提高了模型的泛化能力。其次,数据集包含非IP设备数据,解决了传统数据集中只关注IP设备的局限性。此外,CIC-IoT-22数据集提供了正常使用数据,这对于测试模型在实际场景中的表现至关重要。最后,数据集的透明性和可重复性保证了研究结果的可信度。这些特性使得CIC-IoT-22成为评估和改进物联网设备识别方法的宝贵资源。
实际应用
CIC-IoT-22数据集的实际应用场景非常广泛。首先,它可用于物联网安全领域,帮助识别和诊断潜在的设备漏洞。其次,数据集可用于开发更精确的物联网设备识别模型,从而提高网络安全性。此外,CIC-IoT-22数据集还可用于物联网设备管理,帮助设备制造商和运营商更好地理解设备行为,从而优化产品设计和用户体验。最后,数据集还可用于学术研究,促进物联网设备识别技术的发展和创新。
数据集最近研究
最新研究方向
在物联网(IoT)设备数量激增的背景下,设备识别对于确保网络安全至关重要。CIC-IoT-22数据集作为最新的物联网设备识别数据集,提供了对现有方法的验证和改进。该数据集具有设备多样性、数据类型丰富和场景广泛等优势,使得研究人员能够更好地评估物联网设备识别方法的性能和泛化能力。例如,该数据集包含了大量的设备、多个实例、IP和非IP设备数据、正常使用数据以及活跃和空闲状态下的多样化使用配置文件。这些特点使得研究人员能够更全面地测试物联网设备识别方法的鲁棒性和泛化能力。此外,该数据集的发布也为物联网设备识别研究提供了更可靠的实验环境和数据支持,有助于推动该领域的发展。
相关研究论文
- 1Externally validating the IoTDevID device identification methodology using the CIC IoT 2022 Dataset赫瑞瓦特大学 · 2023年
以上内容由遇见数据集搜集并总结生成



