five

IoT-23|物联网安全数据集|网络流量分析数据集

收藏
github2024-04-17 更新2024-05-31 收录
物联网安全
网络流量分析
下载链接:
https://github.com/Harsh-Katiyar/NetWarden
下载链接
链接失效反馈
资源简介:
IoT-23数据集由Stratosphere实验室提供,包含标记的IoT网络流量,包括良性和恶意流量。

The IoT-23 dataset, provided by the Stratosphere Laboratory, contains labeled IoT network traffic, encompassing both benign and malicious traffic.
创建时间:
2024-04-17
原始信息汇总

数据集概述

数据集名称

  • IoT-23

数据集来源

  • 提供者:Stratosphere Laboratory

数据集内容

  • 包含标记的IoT网络流量,包括良性与恶意流量。
  • 轻量版本不包含PCAP文件,仅包含标记的流量。

数据集大小

  • 下载的压缩文件大小:8.8 GB
  • 解压后文件大小:约44 GB

数据集使用

  • 用于网络流量异常检测和分类的研究项目。
  • 数据集需下载并解压,然后通过特定的Python脚本进行数据提取和处理。

数据集处理步骤

  1. 数据提取:从场景文件中提取数据,生成单独的攻击和良性流量文件。
  2. 数据洗牌:将大文件分割并随机洗牌,以提高数据样本的可靠性。

数据集依赖

  • 编程语言:Python 3.8.8
  • 机器学习工具:scikit-learn 0.24.1
  • 科学计算工具:NymPy 1.19.5
  • 数据分析工具:pandas 1.2.2
  • 数据可视化工具:matplotlib 3.3.4, seaborn 0.11.1
  • 系统信息获取:psutil 5.8.0
  • 模型序列化:pickle

数据集配置

  • 配置文件:config.py,需设置数据集和实验文件的存储路径。
  • 配置检查:通过运行配置检查脚本确认配置正确。

数据集实验

  • 演示实验:使用10,000条记录快速验证系统。
  • 设计实验:处理超过2000万条记录,耗时约24小时。
  • 自定义实验:TODO
AI搜集汇总
数据集介绍
main_image_url
构建方式
IoT-23数据集由Stratosphere实验室构建,专注于物联网网络流量的异常检测与分类。该数据集包含标记的物联网网络流量,涵盖了良性和恶意的流量。构建过程中,首先从多个场景中提取数据,将混合的攻击和良性流量分离,存储于单独的文件中。随后,对文件内容进行随机化处理,以确保数据样本的可靠性。这一过程涉及长时间的数据处理,旨在为机器学习模型提供高质量的训练数据。
使用方法
使用IoT-23数据集时,首先需下载并解压数据集,随后配置项目环境,确保所有依赖库已安装。接着,通过运行特定的Python脚本,如数据提取和内容随机化脚本,准备数据以供机器学习模型使用。用户可以选择运行演示、设计实验或自定义实验,具体取决于需求和计算资源。每个实验步骤均需遵循预设的配置和数据处理流程,以确保结果的准确性和一致性。
背景与挑战
背景概述
物联网(IoT)设备的广泛应用带来了网络流量异常检测的迫切需求。IoT-23数据集由Stratosphere实验室提供,旨在支持网络流量异常的检测与分类研究。该数据集包含了标记的物联网网络流量,涵盖了正常和恶意流量,为研究人员提供了一个标准化的测试平台。自2021年发布以来,IoT-23数据集已成为物联网安全领域的重要资源,推动了相关算法和模型的开发与验证。
当前挑战
IoT-23数据集在构建过程中面临了数据量大、处理复杂度高的挑战。首先,数据集的原始文件大小达到8.8 GB,解压后更是高达44 GB,这对存储和计算资源提出了高要求。其次,数据提取和预处理过程耗时较长,如数据提取步骤需约2小时,内容洗牌步骤需2.5至3小时,而完整实验运行时间更是长达24小时。此外,数据集中包含了多种攻击类型和正常流量,如何有效区分和分类这些流量,确保模型的准确性和鲁棒性,是当前研究面临的主要挑战。
常用场景
经典使用场景
在网络安全领域,IoT-23数据集被广泛用于网络流量异常检测与分类。该数据集包含了标记的物联网(IoT)网络流量,涵盖了正常和恶意流量。研究者通过分析这些流量数据,可以开发和验证各种机器学习模型,以识别和分类潜在的网络威胁。
解决学术问题
IoT-23数据集解决了物联网设备在网络中面临的威胁检测问题。通过提供详细的流量数据和标签,该数据集帮助研究人员开发和评估新的检测算法,从而提高物联网设备的安全性。这对于推动网络安全领域的研究具有重要意义,尤其是在物联网设备日益普及的背景下。
实际应用
在实际应用中,IoT-23数据集被用于训练和测试网络安全系统,以识别和阻止恶意网络流量。例如,企业可以使用该数据集来优化其网络安全策略,确保物联网设备的安全运行。此外,政府和研究机构也可以利用该数据集来开发新的网络安全工具和策略。
数据集最近研究
最新研究方向
在物联网(IoT)安全领域,IoT-23数据集因其丰富的标注数据和广泛的应用场景而备受关注。最新研究方向主要集中在利用机器学习技术对IoT网络流量进行异常检测和分类。通过集成多种先进的机器学习工具,如scikit-learn、NumPy和pandas,研究人员能够高效地处理和分析大规模的网络流量数据。此外,数据集的预处理步骤,包括数据提取和内容洗牌,显著提升了模型的训练效果和预测准确性。这些研究不仅推动了IoT安全技术的进步,也为未来智能设备的安全防护提供了有力的数据支持。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

Figshare

Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。

figshare.com 收录

中国1km分辨率逐月降水量数据集(1901-2023)

该数据集为中国逐月降水量数据,空间分辨率为0.0083333°(约1km),时间为1901.1-2023.12。数据格式为NETCDF,即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集,通过Delta空间降尺度方案在中国降尺度生成的。并且,使用496个独立气象观测点数据进行验证,验证结果可信。本数据集包含的地理空间范围是全国主要陆地(包含港澳台地区),不含南海岛礁等区域。为了便于存储,数据均为int16型存于nc文件中,降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理,Matlab发布了读入与存储nc文件的函数,读取函数为ncread,切换到nc文件存储文件夹,语句表达为:ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent]),其中XXX.nc为文件名,为字符串需要’’;var是从XXX.nc中读取的变量名,为字符串需要’’;i、j、t分别为读取数据的起始行、列、时间,leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样,研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令,可查看。数据坐标系统建议使用WGS84。

国家青藏高原科学数据中心 收录

Fruits-360

一个高质量的水果图像数据集,包含多种水果的图像,如苹果、香蕉、樱桃等,总计42345张图片,分为训练集和验证集,共有64个水果类别。

github 收录

TCIA

TCIA(The Cancer Imaging Archive)是一个公开的癌症影像数据集,包含多种癌症类型的医学影像数据,如CT、MRI、PET等。这些数据通常与临床和病理信息相结合,用于癌症研究和临床试验。

www.cancerimagingarchive.net 收录

VisDrone2019

VisDrone2019数据集由AISKYEYE团队在天津大学机器学习和数据挖掘实验室收集,包含288个视频片段共261,908帧和10,209张静态图像。数据集覆盖了中国14个不同城市的城市和乡村环境,包括行人、车辆、自行车等多种目标,以及稀疏和拥挤场景。数据集使用不同型号的无人机在各种天气和光照条件下收集,手动标注了超过260万个目标边界框,并提供了场景可见性、对象类别和遮挡等重要属性。

github 收录