yashika0998/iot-23-preprocessed-allcolumns
收藏Hugging Face2023-12-01 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/yashika0998/iot-23-preprocessed-allcolumns
下载链接
链接失效反馈官方服务:
资源简介:
Aposemat IoT-23数据集包含来自20个恶意网络流量捕获和3个良性流量捕获的数据子集,专门用于物联网设备的入侵检测系统研究。该数据集由Sebastian Garcia、Agustin Parmisano和Maria Jose Erquiaga在Avast AIC实验室创建,并由Avast Software资助。数据集的特征信息来源于Zeek处理,包括时间戳、IP地址、端口号、协议类型、连接状态等。数据集包含600万个样本,未进行数据平衡处理。建议在使用完整数据集之前,先使用该数据集进行模型处理的模拟。
Aposemat IoT-23数据集包含来自20个恶意网络流量捕获和3个良性流量捕获的数据子集,专门用于物联网设备的入侵检测系统研究。该数据集由Sebastian Garcia、Agustin Parmisano和Maria Jose Erquiaga在Avast AIC实验室创建,并由Avast Software资助。数据集的特征信息来源于Zeek处理,包括时间戳、IP地址、端口号、协议类型、连接状态等。数据集包含600万个样本,未进行数据平衡处理。建议在使用完整数据集之前,先使用该数据集进行模型处理的模拟。
提供机构:
yashika0998
原始信息汇总
数据集概述
数据集信息
特征信息
- ts: 时间戳,数据类型为
float64 - uid: 连接的唯一标识符,数据类型为
string - id.orig_h: 发起方的IP地址,数据类型为
string - id.orig_p: 发起方的端口号,数据类型为
int64 - id.resp_h: 响应方的IP地址,数据类型为
string - id.resp_p: 响应方的端口号,数据类型为
int64 - proto: 传输层协议,数据类型为
string - service: 应用层协议标识,数据类型为
string - duration: 连接持续时间,数据类型为
float64 - orig_bytes: 发起方发送的字节数,数据类型为
int64 - resp_bytes: 响应方发送的字节数,数据类型为
int64 - conn_state: 连接状态,数据类型为
string - local_orig: 连接是否本地发起,数据类型为
float64 - local_resp: 连接是否本地响应,数据类型为
float64 - missed_bytes: 丢失的字节数,数据类型为
int64 - history: 连接状态历史记录,数据类型为
string - orig_pkts: 发起方发送的数据包数,数据类型为
int64 - orig_ip_bytes: 发起方发送的IP层字节数,数据类型为
int64 - resp_pkts: 响应方发送的数据包数,数据类型为
int64 - resp_ip_bytes: 响应方发送的IP层字节数,数据类型为
int64 - label: 数据点标签(良性或恶意),数据类型为
string
数据分割
- train: 训练集,包含 6,046,623 个样本,总字节数为 1,232,978,140
数据集大小
- 下载大小: 274,218,995 字节
- 数据集大小: 1,232,978,140 字节
配置
- default: 默认配置,包含训练集数据文件路径
data/train-*
任务类别
- tabular-classification: 表格分类
- table-question-answering: 表格问答
语言
- en: 英语
标签
- label: 数据点标签,包括多种恶意和良性标签
注意事项
ts,uid,id.orig_h,id.resp_h,local_orig,local_resp这些特征应从模型训练中移除,以避免过拟合。
搜集汇总
数据集介绍

背景与挑战
背景概述
该数据集是Aposemat IoT-23的预处理版本,包含819,024行IoT网络流量数据,用于恶意和良性流量分类的入侵检测系统研究。数据集提供了20个恶意流量捕获和3个良性流量捕获的详细网络连接特征(如协议、端口、字节数、连接状态等),并标注了多种攻击类型标签,适用于表格分类任务。
以上内容由遇见数据集搜集并总结生成



