five

Mouwiya/UNSW-NB15

收藏
Hugging Face2024-05-15 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/Mouwiya/UNSW-NB15
下载链接
链接失效反馈
官方服务:
资源简介:
--- dataset_info: features: - name: srcip dtype: string - name: sport dtype: string - name: dstip dtype: string - name: dsport dtype: string - name: proto dtype: string - name: state dtype: string - name: dur dtype: float64 - name: sbytes dtype: int64 - name: dbytes dtype: int64 - name: sttl dtype: int64 - name: dttl dtype: int64 - name: sloss dtype: int64 - name: dloss dtype: int64 - name: service dtype: string - name: Sload dtype: float64 - name: Dload dtype: float64 - name: Spkts dtype: int64 - name: Dpkts dtype: int64 - name: swin dtype: int64 - name: dwin dtype: int64 - name: stcpb dtype: int64 - name: dtcpb dtype: int64 - name: smeansz dtype: int64 - name: dmeansz dtype: int64 - name: trans_depth dtype: int64 - name: res_bdy_len dtype: int64 - name: Sjit dtype: float64 - name: Djit dtype: float64 - name: Stime dtype: int64 - name: Ltime dtype: int64 - name: Sintpkt dtype: float64 - name: Dintpkt dtype: float64 - name: tcprtt dtype: float64 - name: synack dtype: float64 - name: ackdat dtype: float64 - name: is_sm_ips_ports dtype: int64 - name: ct_state_ttl dtype: int64 - name: ct_flw_http_mthd dtype: float64 - name: is_ftp_login dtype: float64 - name: ct_ftp_cmd dtype: string - name: ct_srv_src dtype: int64 - name: ct_srv_dst dtype: int64 - name: ct_dst_ltm dtype: int64 - name: ct_src_ltm dtype: int64 - name: ct_src_dport_ltm dtype: int64 - name: ct_dst_sport_ltm dtype: int64 - name: ct_dst_src_ltm dtype: int64 - name: attack_cat dtype: string - name: label dtype: int64 splits: - name: train num_bytes: 907689217 num_examples: 2280090 download_size: 230016344 dataset_size: 907689217 configs: - config_name: default data_files: - split: train path: data/train-* task_categories: - text-classification - zero-shot-classification language: - en size_categories: - 1M<n<10M --- # The UNSW-NB15 The raw network packets (Pcap files) of the UNSW-NB 15 data set is created by the IXIA PerfectStorm tool in the Cyber Range Lab of the Australian Centre for Cyber Security (ACCS) for generating a hybrid of real modern normal activities and synthetic contemporary attack activities. The UNSW-NB15 source files are provided in different formats, Pcap files, BRO files, Argus Files and CSV files. The source files of the data set were divided based in the date of the simulation 22-1-2015 and 17-2-2015, respectively. The descriptions of these simulations are provided in the report files to show the network configurations and the actions of the attack types during the simulation ## How to Use it pip install datasets from datasets import load_dataset dataset = load_dataset("Mouwiya/UNSW-NB15") ### Dataset Description The details of the UNSW-NB15 dataset were published in following the papers. For the academic/public use of this dataset, the authors have to cities the following papers: Moustafa, Nour, and Jill Slay. "UNSW-NB15: a comprehensive data set for network intrusion detection systems (UNSW-NB15 network data set)." Military Communications and Information Systems Conference (MilCIS), 2015. IEEE, 2015. Moustafa, Nour, and Jill Slay. "The evaluation of Network Anomaly Detection Systems: Statistical analysis of the UNSW-NB15 dataset and the comparison with the KDD99 dataset." Information Security Journal: A Global Perspective (2016): 1-14. Moustafa, Nour, et al. "Novel geometric area analysis technique for anomaly detection using trapezoidal area estimation on large-scale networks." IEEE Transactions on Big Data (2017). Moustafa, Nour, et al. "Big data analytics for intrusion detection system: statistical decision-making using finite dirichlet mixture models." Data Analytics and Decision Support for Cybersecurity. Springer, Cham, 2017. 127-156. Sarhan, Mohanad, Siamak Layeghy, Nour Moustafa, and Marius Portmann. NetFlow Datasets for Machine Learning-Based Network Intrusion Detection Systems. In Big Data Technologies and Applications: 10th EAI International Conference, BDTA 2020, and 13th EAI International Conference on Wireless Internet, WiCON 2020, Virtual Event, December 11, 2020, Proceedings (p. 117). Springer Nature. ## Uses <!-- Address questions around how the dataset is intended to be used. --> Free use of the UNSW-NB15 dataset for academic research purposes is hereby granted in perpetuity. Use for commercial purposes is strictly prohibited. Nour Moustafa has asserted his rights under the Copyright. ## Citation <!-- If there is a paper or blog post introducing the dataset, the APA and Bibtex information for that should go in this section. --> N. Moustafa and J. Slay, "UNSW-NB15: a comprehensive data set for network intrusion detection systems (UNSW-NB15 network data set)," 2015 Military Communications and Information Systems Conference (MilCIS), Canberra, ACT, Australia, 2015, pp. 1-6, doi: 10.1109/MilCIS.2015.7348942. keywords: {Telecommunication traffic;Feature extraction;Servers;Training;Data models;IP networks;Benchmark testing;UNSW-NB15 data set;NIDS;low footprint attacks;pcap files;testbed},

数据集信息: 特征: - 名称:源IP地址(srcip),数据类型:字符串 - 名称:源端口(sport),数据类型:字符串 - 名称:目的IP地址(dstip),数据类型:字符串 - 名称:目的端口(dsport),数据类型:字符串 - 名称:协议(proto),数据类型:字符串 - 名称:连接状态(state),数据类型:字符串 - 名称:持续时长(dur),数据类型:64位浮点数(float64) - 名称:源端字节数(sbytes),数据类型:64位整数(int64) - 名称:目的端字节数(dbytes),数据类型:64位整数 - 名称:源端生存时间(sttl),数据类型:64位整数 - 名称:目的端生存时间(dttl),数据类型:64位整数 - 名称:源端丢包数(sloss),数据类型:64位整数 - 名称:目的端丢包数(dloss),数据类型:64位整数 - 名称:服务类型(service),数据类型:字符串 - 名称:源端负载速率(Sload),数据类型:64位浮点数 - 名称:目的端负载速率(Dload),数据类型:64位浮点数 - 名称:源端数据包总数(Spkts),数据类型:64位整数 - 名称:目的端数据包总数(Dpkts),数据类型:64位整数 - 名称:源端TCP窗口大小(swin),数据类型:64位整数 - 名称:目的端TCP窗口大小(dwin),数据类型:64位整数 - 名称:源端TCP初始序列号(stcpb),数据类型:64位整数 - 名称:目的端TCP初始序列号(dtcpb),数据类型:64位整数 - 名称:源端数据包平均大小(smeansz),数据类型:64位整数 - 名称:目的端数据包平均大小(dmeansz),数据类型:64位整数 - 名称:传输深度(trans_depth),数据类型:64位整数 - 名称:响应主体长度(res_bdy_len),数据类型:64位整数 - 名称:源端抖动(Sjit),数据类型:64位浮点数 - 名称:目的端抖动(Djit),数据类型:64位浮点数 - 名称:会话开始时间(Stime),数据类型:64位整数 - 名称:会话结束时间(Ltime),数据类型:64位整数 - 名称:源端数据包间隔时间(Sintpkt),数据类型:64位浮点数 - 名称:目的端数据包间隔时间(Dintpkt),数据类型:64位浮点数 - 名称:TCP往返时间(tcprtt),数据类型:64位浮点数 - 名称:SYN-ACK延迟(synack),数据类型:64位浮点数 - 名称:ACK数据延迟(ackdat),数据类型:64位浮点数 - 名称:是否同源IP端口匹配(is_sm_ips_ports),数据类型:64位整数 - 名称:状态-生存时间计数(ct_state_ttl),数据类型:64位整数 - 名称:HTTP方法计数(ct_flw_http_mthd),数据类型:64位浮点数 - 名称:是否FTP登录(is_ftp_login),数据类型:64位浮点数 - 名称:FTP命令计数(ct_ftp_cmd),数据类型:字符串 - 名称:源端服务计数(ct_srv_src),数据类型:64位整数 - 名称:目的端服务计数(ct_srv_dst),数据类型:64位整数 - 名称:目的端本地时间计数(ct_dst_ltm),数据类型:64位整数 - 名称:源端本地时间计数(ct_src_ltm),数据类型:64位整数 - 名称:源端-目的端口本地时间计数(ct_src_dport_ltm),数据类型:64位整数 - 名称:目的端-源端口本地时间计数(ct_dst_sport_ltm),数据类型:64位整数 - 名称:目的端-源端本地时间计数(ct_dst_src_ltm),数据类型:64位整数 - 名称:攻击类别(attack_cat),数据类型:字符串 - 名称:标签(label),数据类型:64位整数 划分集: - 名称:训练集(train),字节数:907689217,样本数:2280090 下载大小:230016344,数据集总大小:907689217 配置: - 配置名称:默认(default),数据文件: - 划分集:训练集,路径:data/train-* 任务类别: - 文本分类(text-classification) - 零样本(Zero-shot)分类 语言:英语(en) 样本规模类别:1M<n<10M # UNSW-NB15 数据集 UNSW-NB15数据集的原始网络数据包(Pcap文件)由澳大利亚网络安全中心(Australian Centre for Cyber Security, ACCS)网络模拟实验室的IXIA PerfectStorm工具生成,用于混合生成真实的现代正常网络活动与合成的当代攻击活动。UNSW-NB15的源文件提供多种格式,包括Pcap文件、BRO文件、Argus文件与CSV文件。该数据集的源文件分别基于2015年1月22日和2015年2月17日的模拟实验进行划分。相关模拟实验的说明已在报告文件中给出,用于展示模拟过程中的网络配置与攻击类型的执行动作。 ## 使用方法 pip install datasets from datasets import load_dataset dataset = load_dataset("Mouwiya/UNSW-NB15") ### 数据集说明 UNSW-NB15数据集的详细信息已在以下论文中发表。若将该数据集用于学术/公开用途,作者需引用以下文献: 1. Moustafa, Nour, 和 Jill Slay. "UNSW-NB15: 面向网络入侵检测系统的综合数据集(UNSW-NB15网络数据集)",2015年军事通信与信息系统会议(MilCIS),IEEE,2015年。 2. Moustafa, Nour, 和 Jill Slay. "网络异常检测系统的评估:UNSW-NB15数据集的统计分析及与KDD99数据集的对比",《信息安全期刊:全球视角》(2016): 1-14. 3. Moustafa, Nour, 等. "面向大规模网络异常检测的新型几何面积分析技术:基于梯形面积估计的方法",《IEEE大数据汇刊》(2017). 4. Moustafa, Nour, 等. "面向入侵检测系统的大数据分析:基于有限狄利克雷混合模型的统计决策",《网络安全数据分析与决策支持》,Springer,Cham,2017年,127-156页。 5. Sarhan, Mohanad, Siamak Layeghy, Nour Moustafa, 和 Marius Portmann. "基于机器学习的网络入侵检测系统的NetFlow数据集",见《大数据技术与应用:第10届EAI国际会议BDTA 2020及第13届EAI无线互联网国际会议WiCON 2020,虚拟活动,2020年12月11日,论文集》(第117页),Springer Nature。 ## 用途说明 本声明授予任何人永久免费使用UNSW-NB15数据集用于学术研究的权利。商业用途严格禁止。Nour Moustafa已依据版权法主张其相关权利。 ## 引用规范 N. Moustafa 和 J. Slay, "UNSW-NB15: 面向网络入侵检测系统的综合数据集(UNSW-NB15网络数据集)",2015年军事通信与信息系统会议(MilCIS),澳大利亚堪培拉,2015年,第1-6页,doi: 10.1109/MilCIS.2015.7348942. 关键词:{Telecommunication traffic;Feature extraction;Servers;Training;Data models;IP networks;Benchmark testing;UNSW-NB15 数据集;NIDS;low footprint 攻击;pcap 文件;测试床}
提供机构:
Mouwiya
原始信息汇总

数据集概述

数据集名称

  • UNSW-NB15

数据集特征

  • srcip: 字符串
  • sport: 字符串
  • dstip: 字符串
  • dsport: 字符串
  • proto: 字符串
  • state: 字符串
  • dur: 浮点数
  • sbytes: 整数
  • dbytes: 整数
  • sttl: 整数
  • dttl: 整数
  • sloss: 整数
  • dloss: 整数
  • service: 字符串
  • Sload: 浮点数
  • Dload: 浮点数
  • Spkts: 整数
  • Dpkts: 整数
  • swin: 整数
  • dwin: 整数
  • stcpb: 整数
  • dtcpb: 整数
  • smeansz: 整数
  • dmeansz: 整数
  • trans_depth: 整数
  • res_bdy_len: 整数
  • Sjit: 浮点数
  • Djit: 浮点数
  • Stime: 整数
  • Ltime: 整数
  • Sintpkt: 浮点数
  • Dintpkt: 浮点数
  • tcprtt: 浮点数
  • synack: 浮点数
  • ackdat: 浮点数
  • is_sm_ips_ports: 整数
  • ct_state_ttl: 整数
  • ct_flw_http_mthd: 浮点数
  • is_ftp_login: 浮点数
  • ct_ftp_cmd: 字符串
  • ct_srv_src: 整数
  • ct_srv_dst: 整数
  • ct_dst_ltm: 整数
  • ct_src_ltm: 整数
  • ct_src_dport_ltm: 整数
  • ct_dst_sport_ltm: 整数
  • ct_dst_src_ltm: 整数
  • attack_cat: 字符串
  • label: 整数

数据集分割

  • train: 2280090个样本,总字节数907689217

数据集大小

  • 下载大小: 230016344字节
  • 数据集大小: 907689217字节

任务类别

  • 文本分类
  • 零样本分类

语言

  • 英语

大小类别

  • 1M<n<10M
搜集汇总
数据集介绍
main_image_url
构建方式
UNSW-NB15数据集通过使用IXIA PerfectStorm工具在澳大利亚网络安全中心(ACCS)的网络实验室中生成,结合了真实现代网络活动和合成攻击活动。数据集的原始网络数据包以Pcap、BRO、Argus和CSV文件格式提供,并根据模拟日期(2015年1月22日和2015年2月17日)进行划分。报告文件详细描述了网络配置和攻击类型在模拟期间的行为,确保了数据集的多样性和复杂性。
特点
UNSW-NB15数据集以其全面性和多样性著称,涵盖了多种网络活动和攻击类型。数据集包含丰富的特征,如源和目标IP地址、端口号、协议类型、状态、数据包大小和传输时间等,这些特征为网络入侵检测系统(NIDS)的研究提供了坚实的基础。此外,数据集还提供了详细的攻击分类和标签,便于研究人员进行分类和检测任务。
使用方法
使用UNSW-NB15数据集进行研究时,首先需安装'datasets'库,然后通过'load_dataset'函数加载数据集。数据集适用于多种任务,包括文本分类和零样本分类。研究人员可以利用数据集中的丰富特征和标签,进行网络入侵检测、异常检测和攻击分类等研究。需要注意的是,该数据集仅限学术研究使用,禁止用于商业目的。
背景与挑战
背景概述
网络入侵检测系统(NIDS)是网络安全领域的重要组成部分,旨在识别和防御网络攻击。UNSW-NB15数据集由澳大利亚网络安全中心(ACCS)的Nour Moustafa和Jill Slay等人创建,于2015年发布。该数据集通过IXIA PerfectStorm工具生成,结合了真实网络流量和合成攻击数据,旨在为NIDS的研究和开发提供一个全面的基准。UNSW-NB15数据集的发布,极大地推动了网络入侵检测技术的发展,特别是在处理现代网络攻击和低足迹攻击方面,为学术界和工业界提供了宝贵的资源。
当前挑战
UNSW-NB15数据集在构建过程中面临了多项挑战。首先,生成真实且多样化的网络流量和攻击数据需要复杂的模拟环境和工具,如IXIA PerfectStorm。其次,数据集的多样性和复杂性增加了数据预处理和特征提取的难度,尤其是在处理大规模网络数据时。此外,数据集的标注和分类需要高度专业化的知识,以确保攻击类型的准确识别和分类。最后,数据集的使用受到严格的版权限制,仅限于学术研究,限制了其在商业领域的应用和推广。
常用场景
经典使用场景
在网络安全领域,UNSW-NB15数据集被广泛用于网络入侵检测系统(NIDS)的开发与评估。该数据集通过模拟真实网络环境中的正常活动和攻击行为,为研究人员提供了一个全面的实验平台。经典使用场景包括特征提取、模型训练和性能评估,特别是在检测低足迹攻击和新型网络威胁方面,UNSW-NB15数据集展现了其独特的优势。
衍生相关工作
基于UNSW-NB15数据集,研究者们开展了一系列相关工作。例如,Moustafa等人提出了几何区域分析技术,用于异常检测中的梯形区域估计。此外,该数据集还被用于开发基于有限狄利克雷混合模型的大数据分析方法,进一步推动了入侵检测系统的研究。这些衍生工作不仅丰富了网络安全领域的理论基础,也为实际应用提供了新的技术支持。
数据集最近研究
最新研究方向
在网络安全领域,UNSW-NB15数据集因其丰富的网络流量特征和多样化的攻击类型而备受关注。最新研究方向主要集中在利用深度学习技术提升网络入侵检测系统的准确性和效率。研究者们通过引入卷积神经网络(CNN)和长短期记忆网络(LSTM)等先进模型,对数据集中的流量特征进行深度挖掘,以期在复杂网络环境中实现更精准的异常检测。此外,结合迁移学习和强化学习的方法,也在探索如何优化模型在不同网络环境下的适应性和实时响应能力。这些研究不仅推动了网络入侵检测技术的发展,也为构建更加智能和自适应的网络安全防护体系提供了新的思路和方法。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作