19kmunz/iot-23-preprocessed-allcolumns

Name: 19kmunz/iot-23-preprocessed-allcolumns
Creator: 19kmunz
Published: 2023-11-03 16:44:31
License: 暂无描述

Hugging Face2023-11-03 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/19kmunz/iot-23-preprocessed-allcolumns

下载链接

链接失效反馈

官方服务：

资源简介：

Aposemat IoT-23数据集包含来自20个恶意网络流量捕获和3个良性网络流量捕获的数据子集，专门用于物联网（IoT）设备的入侵检测系统（IDS）。该数据集由Sebastian Garcia、Agustin Parmisano和Maria Jose Erquiaga在Avast AIC实验室创建，并由Avast Software资助。数据集的特征信息来源于Zeek处理，包含多个字段如时间戳、IP地址、端口号、协议类型、连接状态等。数据集未进行数据平衡处理，建议在使用完整数据集前先使用该数据集进行模型处理的模拟。

The Aposemat IoT-23 dataset consists of data subsets from 20 malicious network traffic captures and 3 benign network traffic captures, and is specifically designed for intrusion detection systems (IDS) targeting Internet of Things (IoT) devices. This dataset was created by Sebastian Garcia, Agustin Parmisano, and Maria Jose Erquiaga at the Avast AIC Lab and funded by Avast Software. Feature information of the dataset is derived from Zeek processing, and includes multiple fields such as timestamp, IP address, port number, protocol type, connection status, etc. No data balancing has been conducted on the dataset, and it is recommended to use this dataset for model processing simulation prior to utilizing the full dataset.

提供机构：

19kmunz

原始信息汇总

数据集概述

数据集信息

特征列表:
- ts: 时间戳，数据类型为 float64
- uid: 连接的唯一标识符，数据类型为 string
- id.orig_h: 发起方的 IP 地址，数据类型为 string
- id.orig_p: 发起方的端口号，数据类型为 int64
- id.resp_h: 响应方的 IP 地址，数据类型为 string
- id.resp_p: 响应方的端口号，数据类型为 int64
- proto: 传输层协议，数据类型为 string
- service: 应用层协议标识，数据类型为 string
- duration: 连接持续时间，数据类型为 float64
- orig_bytes: 发起方发送的字节数，数据类型为 int64
- resp_bytes: 响应方发送的字节数，数据类型为 int64
- conn_state: 连接状态，数据类型为 string
- local_orig: 发起方是否本地，数据类型为 float64
- local_resp: 响应方是否本地，数据类型为 float64
- missed_bytes: 丢失的字节数，数据类型为 int64
- history: 连接状态历史记录，数据类型为 string
- orig_pkts: 发起方发送的数据包数，数据类型为 int64
- orig_ip_bytes: 发起方发送的 IP 层字节数，数据类型为 int64
- resp_pkts: 响应方发送的数据包数，数据类型为 int64
- resp_ip_bytes: 响应方发送的 IP 层字节数，数据类型为 int64
- label: 数据点标签（良性或恶意），数据类型为 string
数据分割:
- train: 训练集，包含 6046623 个样本，总字节数为 1232978140
数据集大小:
- 下载大小: 274218995 字节
- 数据集大小: 1232978140 字节
配置:
- default: 默认配置，数据文件路径为 data/train-*
任务类别:
- 表格分类
- 表格问答
语言:
- 英语
标签:
- code

特征详细信息

ts: 首次数据包的时间戳
uid: 连接的唯一标识符
id.orig_h: 发起方的 IP 地址
id.orig_p: 发起方的端口号
id.resp_h: 响应方的 IP 地址
id.resp_p: 响应方的端口号
proto: 传输层协议
service: 应用层协议标识
duration: 连接持续时间
orig_bytes: 发起方发送的字节数
resp_bytes: 响应方发送的字节数
conn_state: 连接状态
local_orig: 发起方是否本地
local_resp: 响应方是否本地
missed_bytes: 丢失的字节数
history: 连接状态历史记录
orig_pkts: 发起方发送的数据包数
orig_ip_bytes: 发起方发送的 IP 层字节数
resp_pkts: 响应方发送的数据包数
resp_ip_bytes: 响应方发送的 IP 层字节数
label: 数据点标签（良性或恶意）

注意事项

ts, uid, id.orig_h, id.resp_h 应移除，因为它们是数据集特定的，可能导致模型过拟合。
local_orig, local_resp 应移除，因为它们在所有行中均为空值，对训练无用。

搜集汇总

数据集介绍

构建方式

19kmunz/iot-23-preprocessed-allcolumns数据集由Sebastian Garcia, Agustin Parmisano, 及Maria Jose Erquiaga于Avast AIC实验室构建，包含20次恶意网络流量捕获和3次良性网络流量捕获的子集。数据集通过Zeek工具处理网络连接信息，并从中提取了与网络连接相关的多个特征，形成了包含600万样本的数据集。数据未经平衡处理，保留了原始的捕获状态，旨在为入侵检测系统提供真实场景的训练数据。

特点

该数据集的特点在于其包含了丰富的网络连接特征，如时间戳、连接的唯一标识符、源与响应者的IP地址和端口号、使用的传输层协议、连接持续时间、发送和接收的字节数、连接状态、本地响应标识、丢失的字节数、连接状态历史、发送和接收的包数以及IP层字节数。此外，数据集还提供了标签，用于区分良性流量与不同类型的恶意流量，有助于训练和评估入侵检测模型。

使用方法

使用19kmunz/iot-23-preprocessed-allcolumns数据集时，用户需注意不应将时间戳、连接唯一标识符以及IP地址等信息用于模型训练，以避免过拟合特定时间和地址。同时，数据集中的local_orig和local_resp字段因在所有记录中均为空值，应从训练数据中移除。用户可以直接使用HuggingFace提供的接口加载和预处理数据，然后根据需要选择合适的模型训练和评估策略。

背景与挑战

背景概述

19kmunz/iot-23-preprocessed-allcolumns数据集，由Sebastian Garcia、Agustin Parmisano和Maria Jose Erquiaga于Avast AIC实验室创建，旨在为物联网设备入侵检测系统提供优质的数据资源。该数据集包含来自20个恶意网络流量捕获和3个实时良性流量捕获的子集，总计600万样本。作为该领域内的佼佼者，19kmunz/iot-23-preprocessed-allcolumns数据集对于研究物联网设备的安全性和入侵检测具有重要意义，其研究成果已广泛应用于网络安全领域。

当前挑战

该数据集在构建过程中所面临的挑战主要包括数据平衡问题，即数据集中恶意流量与良性流量的比例可能不均，这可能导致模型偏向于识别某一类流量。此外，数据集包含的特定字段如时间戳和IP地址可能会引发模型过拟合问题，需要适当处理。在研究领域问题方面，该数据集旨在解决物联网设备网络流量的分类问题，这对于构建有效的入侵检测系统至关重要，但在实际应用中，如何准确地区分各种恶意流量和良性流量仍是一大挑战。

常用场景

经典使用场景

在物联网安全研究领域，19kmunz/iot-23-preprocessed-allcolumns数据集被广泛用于构建和评估入侵检测系统。其经典使用场景在于，通过对物联网设备网络流量的特征进行分析，研究人员能够训练模型以区分良性流量与恶意流量，进而识别出各种网络攻击，如DDoS攻击、横向端口扫描等。

实际应用

在实际应用中，该数据集可被用于加强物联网设备的网络安全防护，确保数据的完整性、机密性和可用性。安全专家可借此优化安全策略，预防潜在的攻击行为，保护用户隐私和财产安全。

衍生相关工作

基于该数据集，学术界和工业界已经衍生出多项相关工作，包括但不限于入侵检测模型的开发、恶意流量特征分析以及物联网设备的安全评估。这些研究进一步扩展了数据集的应用范围，推动了物联网安全领域的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集