five

rdpahalavan/UNSW-NB15

收藏
Hugging Face2023-07-22 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/rdpahalavan/UNSW-NB15
下载链接
链接失效反馈
官方服务:
资源简介:
`nids-datasets`包提供了从原始UNSW-NB15和CIC-IDS2017数据集中提取的专门策划的数据集。这些数据集最初只是流数据集,但现在已经增强为包含来自原始PCAP文件的数据包级别信息。数据集包含超过2.3亿个数据包的数据包级别和流级别数据,其中1.79亿个数据包来自UNSW-NB15,5400万个数据包来自CIC-IDS2017。数据集分为四个子集:网络流、数据包字段、数据包字节和有效载荷字节。每个子集包含18个文件(网络流子集除外,只有一个文件),数据以parquet格式存储。包提供了访问110个文件的功能,用户可以选择下载所有子集或特定子集或特定文件。

The `nids-datasets` package provides specifically curated datasets extracted from the original UNSW-NB15 and CIC-IDS2017 datasets. These datasets were initially flow-only datasets, but have since been enhanced to incorporate packet-level information derived from the original PCAP files. The datasets encompass both packet-level and flow-level data totaling over 230 million packets: 179 million packets from UNSW-NB15 and 54 million packets from CIC-IDS2017. The datasets are split into four subsets: network flow, packet fields, packet bytes, and payload bytes. Each subset comprises 18 files, with the exception of the network flow subset which only contains one file. All data is stored in Parquet format. The package enables access to 110 total files, allowing users to download all subsets, specific subsets, or individual files.
提供机构:
rdpahalavan
原始信息汇总

数据集概述

数据集名称

  • nids-datasets

数据集内容

  • 包含从UNSW-NB15和CIC-IDS2017数据集中提取和增强的数据,提供超过230 million的packet-level和flow-level数据。
  • UNSW-NB15包含179 million packets,CIC-IDS2017包含54 million packets。

数据集类别

  • 网络入侵检测(Network Intrusion Detection)
  • 网络安全(Cybersecurity)
  • 网络数据包(Network Packets)

数据集标签

  • UNSW-NB15包含10个类别标签:normal, exploits, dos, fuzzers, generic, reconnaissance, worms, shellcode, backdoor, analysis
  • CIC-IDS2017包含24个类别标签:BENIGN, FTP-Patator, SSH-Patator, DoS slowloris, DoS Slowhttptest, DoS Hulk, Heartbleed, Web Attack – Brute Force, Web Attack – XSS, Web Attack – SQL Injection, Infiltration, Bot, PortScan, DDoS, normal, exploits, dos, fuzzers, generic, reconnaissance, worms, shellcode, backdoor, analysis, DoS GoldenEye

数据集结构

  • 包含四个子集:
    1. Network-Flows - 包含flow-level数据。
    2. Packet-Fields - 包含packet header信息。
    3. Packet-Bytes - 包含packet byte信息(0-255)。
    4. Payload-Bytes - 包含payload byte信息(0-255)。
  • 每个子集包含18个文件(Network-Flows除外,仅1个文件),数据存储格式为parquet。

数据集操作

  • 可通过DatasetInfo函数获取数据集概览,帮助选择特定文件进行下载和分析。
  • 使用Dataset类下载指定数据集、子集和文件。
  • 使用merge()方法合并所有数据,提供单一文件中的flow-level和packet-level信息。
  • 使用Bytes()方法从Packet-Bytes和Payload-Bytes子集中提取指定数量的字节。
  • 使用read()方法读取数据集,支持批量处理或逐个packet处理。

数据集大小

  • 数据集大小介于100M到1B之间。

许可证

  • Apache-2.0
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集的构建基于原始的UNSW-NB15和CIC-IDS2017数据集,通过从原始PCAP文件中提取数据,增强了原有的流量数据,使其包含数据包级别的详细信息。具体而言,数据集包含了超过2.3亿个数据包的信息,其中1.79亿个来自UNSW-NB15,5400万个来自CIC-IDS2017。这些数据被组织成四个子集:网络流量、数据包字段、数据包字节和负载字节,每个子集包含18个文件(网络流量子集除外),并以parquet格式存储。
特点
该数据集的显著特点在于其丰富的数据包级别信息,涵盖了网络流量、数据包头部信息、数据包字节和负载字节等多个维度。此外,数据集提供了多种攻击类型的标签,如UNSW-NB15的10个类别和CIC-IDS2017的24个类别,为网络安全领域的研究提供了详尽的分类数据。数据集的规模庞大,适用于大规模网络入侵检测和网络安全分析。
使用方法
使用该数据集时,用户可以通过Python包`nids-datasets`进行安装和导入,选择特定的数据集、子集和文件进行下载。数据集支持多种操作,如合并子集、提取字节信息、读取数据等。用户可以通过`DatasetInfo`函数获取数据集的概览信息,指导后续的下载和分析。数据集的读取和处理支持流式处理,适用于需要逐个处理数据包的场景。
背景与挑战
背景概述
在网络安全领域,网络入侵检测系统(NIDS)的研究一直是关键课题。UNSW-NB15数据集由澳大利亚新南威尔士大学(UNSW)的研究团队开发,旨在提供一个全面的网络流量数据集,以支持网络入侵检测的研究。该数据集包含了超过2.3亿个数据包,涵盖了正常流量和多种类型的攻击流量,具有10个独特的类别标签。UNSW-NB15数据集的发布,极大地推动了网络入侵检测技术的发展,为研究人员提供了一个标准化的测试平台,促进了相关算法的评估和改进。
当前挑战
尽管UNSW-NB15数据集在网络入侵检测领域具有重要意义,但其构建和使用过程中仍面临诸多挑战。首先,数据集的规模庞大,处理和分析这些数据需要大量的计算资源和存储空间。其次,数据集中包含了多种类型的攻击流量,如何准确地分类和识别这些攻击类型是一个复杂的问题。此外,数据集的多样性和复杂性也增加了模型训练的难度,需要开发更为精细和高效的算法来应对这些挑战。最后,数据集的更新和维护也是一个持续的挑战,以确保其能够反映当前网络环境中的最新威胁。
常用场景
经典使用场景
在网络安全领域,UNSW-NB15数据集的经典使用场景主要集中在网络入侵检测(NIDS)系统的开发与评估。该数据集通过提供丰富的网络流量数据,包括正常流量和多种攻击流量,为研究人员和工程师提供了宝贵的资源。通过分析这些数据,可以训练和验证各种机器学习模型,以识别和分类不同类型的网络攻击,从而提升网络防御系统的性能和准确性。
解决学术问题
UNSW-NB15数据集解决了网络安全领域中多个重要的学术研究问题。首先,它为网络入侵检测系统的研究提供了大规模、多样化的数据支持,有助于解决数据稀缺和类别不平衡的问题。其次,通过提供详细的流量和攻击类型标签,该数据集促进了新型检测算法的开发和评估,推动了网络安全技术的进步。此外,该数据集还为研究网络流量特征提取和模式识别提供了丰富的实验材料,有助于提升网络防御的智能化水平。
衍生相关工作
UNSW-NB15数据集的发布和应用催生了大量相关的经典工作。许多研究者基于该数据集开发了新的网络入侵检测算法,如基于深度学习的检测模型和基于特征工程的传统机器学习方法。此外,该数据集还被用于验证和比较不同检测技术的性能,推动了网络安全领域的技术革新。在学术界,UNSW-NB15数据集的相关研究成果多次发表在顶级网络安全会议和期刊上,成为该领域的重要参考文献。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作