five

yashika0998/iot-23-preprocessed-allcolumns

收藏
Hugging Face2023-12-01 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/yashika0998/iot-23-preprocessed-allcolumns
下载链接
链接失效反馈
官方服务:
资源简介:
Aposemat IoT-23数据集包含来自20个恶意网络流量捕获和3个良性流量捕获的数据子集,专门用于物联网设备的入侵检测系统研究。该数据集由Sebastian Garcia、Agustin Parmisano和Maria Jose Erquiaga在Avast AIC实验室创建,并由Avast Software资助。数据集的特征信息来源于Zeek处理,包括时间戳、IP地址、端口号、协议类型、连接状态等。数据集包含600万个样本,未进行数据平衡处理。建议在使用完整数据集之前,先使用该数据集进行模型处理的模拟。

Aposemat IoT-23数据集包含来自20个恶意网络流量捕获和3个良性流量捕获的数据子集,专门用于物联网设备的入侵检测系统研究。该数据集由Sebastian Garcia、Agustin Parmisano和Maria Jose Erquiaga在Avast AIC实验室创建,并由Avast Software资助。数据集的特征信息来源于Zeek处理,包括时间戳、IP地址、端口号、协议类型、连接状态等。数据集包含600万个样本,未进行数据平衡处理。建议在使用完整数据集之前,先使用该数据集进行模型处理的模拟。
提供机构:
yashika0998
原始信息汇总

数据集概述

数据集信息

特征信息

  • ts: 时间戳,数据类型为 float64
  • uid: 连接的唯一标识符,数据类型为 string
  • id.orig_h: 发起方的IP地址,数据类型为 string
  • id.orig_p: 发起方的端口号,数据类型为 int64
  • id.resp_h: 响应方的IP地址,数据类型为 string
  • id.resp_p: 响应方的端口号,数据类型为 int64
  • proto: 传输层协议,数据类型为 string
  • service: 应用层协议标识,数据类型为 string
  • duration: 连接持续时间,数据类型为 float64
  • orig_bytes: 发起方发送的字节数,数据类型为 int64
  • resp_bytes: 响应方发送的字节数,数据类型为 int64
  • conn_state: 连接状态,数据类型为 string
  • local_orig: 连接是否本地发起,数据类型为 float64
  • local_resp: 连接是否本地响应,数据类型为 float64
  • missed_bytes: 丢失的字节数,数据类型为 int64
  • history: 连接状态历史记录,数据类型为 string
  • orig_pkts: 发起方发送的数据包数,数据类型为 int64
  • orig_ip_bytes: 发起方发送的IP层字节数,数据类型为 int64
  • resp_pkts: 响应方发送的数据包数,数据类型为 int64
  • resp_ip_bytes: 响应方发送的IP层字节数,数据类型为 int64
  • label: 数据点标签(良性或恶意),数据类型为 string

数据分割

  • train: 训练集,包含 6,046,623 个样本,总字节数为 1,232,978,140

数据集大小

  • 下载大小: 274,218,995 字节
  • 数据集大小: 1,232,978,140 字节

配置

  • default: 默认配置,包含训练集数据文件路径 data/train-*

任务类别

  • tabular-classification: 表格分类
  • table-question-answering: 表格问答

语言

  • en: 英语

标签

  • label: 数据点标签,包括多种恶意和良性标签

注意事项

  • ts, uid, id.orig_h, id.resp_h, local_orig, local_resp 这些特征应从模型训练中移除,以避免过拟合。
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
该数据集是Aposemat IoT-23的预处理版本,包含819,024行IoT网络流量数据,用于恶意和良性流量分类的入侵检测系统研究。数据集提供了20个恶意流量捕获和3个良性流量捕获的详细网络连接特征(如协议、端口、字节数、连接状态等),并标注了多种攻击类型标签,适用于表格分类任务。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作