19kmunz/iot-23-preprocessed-minimumcolumns

Name: 19kmunz/iot-23-preprocessed-minimumcolumns
Creator: 19kmunz
Published: 2023-11-03 17:12:16
License: 暂无描述

Hugging Face2023-11-03 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/19kmunz/iot-23-preprocessed-minimumcolumns

下载链接

链接失效反馈

官方服务：

资源简介：

Aposemat IoT-23数据集包含来自20个恶意网络流量捕获和3个来自物联网（IoT）设备的良性流量捕获的数据子集。该数据集由Sebastian Garcia、Agustin Parmisano和Maria Jose Erquiaga在Avast AIC实验室创建，并由Avast Software资助。数据集仅包含6个最重要的列：响应者的端口、传输层协议、连接状态、发起者发送的数据包数量、发起者发送的IP层字节数、响应者发送的IP层字节数以及恶意或良性标签。这些列由Alani & Miri的研究确定，仅使用这些列即可达到98%的准确率。数据集包含2.5k行，去除了重复项。

The Aposemat IoT-23 dataset includes data subsets from 20 malicious network traffic captures and 3 benign network traffic captures sourced from Internet of Things (IoT) devices. This dataset was created by Sebastian Garcia, Agustin Parmisano, and Maria Jose Erquiaga at the Avast AIC Laboratory, and funded by Avast Software. The dataset only retains six critical columns, which are: responder's port, transport layer protocol, connection state, number of packets sent by the connection initiator, number of IP-layer bytes sent by the connection initiator, number of IP-layer bytes sent by the connection responder, and the malicious/benign label. These columns were identified in the study by Alani & Miri, and models trained using only these columns achieved an accuracy of 98%. The dataset contains 2.5k rows after deduplication.

提供机构：

19kmunz

原始信息汇总

数据集概述

数据集信息

特征列表：
- id.resp_p：响应者的端口号，数据类型为 int64。
- proto：连接的传输层协议，数据类型为 string。
- conn_state：连接状态，数据类型为 string。
- orig_pkts：发起者发送的数据包数量，数据类型为 int64。
- orig_ip_bytes：发起者发送的IP层字节数，数据类型为 int64。
- resp_ip_bytes：响应者发送的IP层字节数，数据类型为 int64。
- label：数据点是良性还是恶意，数据类型为 string。
数据分割：
- train：训练集，包含2370个样本，总字节数为132244。
数据集大小：
- 下载大小：0字节
- 数据集大小：132244字节
配置：
- default：默认配置，数据文件路径为 data/train-*。

数据集描述

该数据集包含20次恶意网络流量捕获和3次来自物联网（IoT）设备的实时良性流量捕获的子集。
数据集由Sebastian Garcia、Agustin Parmisano和Maria Jose Erquiaga在Avast AIC实验室创建，由Avast Software资助。
该数据集适用于物联网设备的入侵检测系统（IDS）的二元分类。
数据集包含6个最重要的列，这些列由Alani & Miri的研究确定，这些列单独使用可以达到98%的准确率。
数据集仅包含2500行，删除了重复项。

特征详细信息

所有特征源自数据集创建者执行的Zeek处理。
特征名称、描述和数据类型：
- id.resp_p：响应者的端口号，数据类型为 int64。
- proto：连接的传输层协议，数据类型为 string。
- conn_state：连接状态，数据类型为 string。
- orig_pkts：发起者发送的数据包数量，数据类型为 int64。
- orig_ip_bytes：发起者发送的IP层字节数，数据类型为 int64。
- resp_ip_bytes：响应者发送的IP层字节数，数据类型为 int64。
- label：数据点是良性还是恶意，数据类型为 string。

搜集汇总

数据集介绍

构建方式

19kmunz/iot-23-preprocessed-minimumcolumns数据集的构建是基于对物联网设备网络流量的捕获，包含恶意流量和良性流量的数据。数据集的构建者Sebastian Garcia、Agustin Parmisano和Maria Jose Erquiaga在Avast AIC实验室，利用Avast Software的资助，从20个恶意网络流量捕获和3个实时良性流量捕获中筛选出子集，旨在为物联网设备入侵检测系统提供高质量的数据集。

特点

该数据集的特点在于其精简性，仅包含6个关键列，包括响应者端口、传输层协议、连接状态、发起者发送的包数量、发起者发送的IP层字节数、响应者发送的IP层字节数以及数据点是否为恶意的标签。这些列是根据Alani和Miri的研究确定的，能够以98%的准确性进行物联网入侵检测，使得轻量级模型也能获得显著结果。数据集去除了重复记录，仅包含2.5k行数据。

使用方法

使用该数据集时，用户需注意数据集未进行平衡处理，因此在使用前应先对数据进行模拟处理，并在使用完整数据集之前进行数据平衡。此外，数据集的标签仅区分恶意与良性，若需更详细的恶意流量类型，需参考原始数据集。数据集的特征来源于Zeek处理，用户在使用时需参考Zeek文档中关于每列的注意事项。

背景与挑战

背景概述

19kmunz/iot-23-preprocessed-minimumcolumns数据集，源自于网络物联网设备中的恶意与良性流量记录，由Sebastian Garcia、Agustin Parmisano及Maria Jose Erquiaga在Avast AIC实验室构建，并获得Avast Software的资助。该数据集在入侵检测系统（IDS）研究领域具有重要价值，是同类数据集中表现卓越者之一。其创建旨在为物联网设备提供一种有效的安全检测手段，并已被广泛用于相关安全机制的研究与开发。

当前挑战

该数据集在构建与应用过程中面临的挑战主要包括：如何准确区分恶意流量与良性流量，确保数据标注的质量与准确性；如何从海量的原始数据中筛选出具有代表性的样本子集；以及如何在保持数据集精简的同时，确保其对于入侵检测模型的训练具有足够的覆盖度和区分度。此外，由于数据集未进行平衡处理，存在类别不平衡的问题，这给模型的泛化能力带来了挑战。

常用场景

经典使用场景

在网络安全领域，19kmunz/iot-23-preprocessed-minimumcolumns数据集被广泛用于物联网设备入侵检测系统的训练与评估。该数据集通过捕获恶意网络流量和良性网络流量，为研究者提供了一个实践二分类任务的良好平台，即区分数据包是恶意的还是良性的。

解决学术问题

该数据集解决了物联网设备在缺乏有效特征集时的入侵检测问题。通过仅包含六个关键特征，它降低了模型的复杂性，同时保持了98%的准确性，为轻量级模型的构建提供了可能。这对于资源受限的物联网设备尤其重要，因为它意味着可以在不牺牲性能的情况下，实现高效的恶意流量检测。

衍生相关工作

基于该数据集，学术界和工业界已经衍生出一系列相关工作，包括但不限于对物联网恶意流量的深入分析、入侵检测模型的创新设计以及相关安全协议的改进。这些研究进一步拓展了物联网安全领域的研究边界，提升了网络安全防护的整体水平。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集