Jetlime/NF-CSE-CIC-IDS2018-v2

Name: Jetlime/NF-CSE-CIC-IDS2018-v2
Creator: Jetlime
Published: 2024-05-24 02:58:35
License: 暂无描述

Hugging Face2024-05-24 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/Jetlime/NF-CSE-CIC-IDS2018-v2

下载链接

链接失效反馈

官方服务：

更多采购需求

资源简介：

NF-CSE-CIC-IDS2018-v2数据集是基于CSE-CIC-IDS2018原始pcap文件生成的NetFlow数据集，主要用于网络流量入侵检测系统。数据集中包含18,893,708条流量记录，其中2,258,141条（11.95%）为攻击样本，16,635,567条（88.05%）为正常流量。数据集按攻击类型分层，以95%和5%的比例分为训练集和测试集。数据集的特征包括源IP地址、目的IP地址、端口号、协议类型、字节数、数据包数、流持续时间等。数据集的学术研究使用需引用相关论文，商业用途需与作者协商。

提供机构：

Jetlime

原始信息汇总

数据集描述

NF-CSE-CIC-IDS2018-v2 数据集是从 CSE-CIC-IDS2018 数据集的原始 pcap 文件生成的基于 NetFlow 的数据集。总共有 18,893,708 个流，其中 2,258,141（11.95%）是攻击样本，16,635,567（88.05%）是良性样本。

数据集分布

类别	数量	描述
Benign	7373198	正常的非恶意流
BruteForce	287597	通过访问预定义的可能性列表来获取用户名和密码凭证的技术
Bot	15683	攻击者远程控制多个被劫持的计算机执行恶意活动的攻击
DoS	269361	试图通过超载计算机系统的资源来阻止对其数据或服务的访问
DDoS	380096	类似于 DoS 的攻击，但有多个不同的分布式来源
Infiltration	62072	内部攻击，通过电子邮件发送恶意文件以利用应用程序，随后通过后门扫描网络以寻找其他漏洞
Web Attacks	4394	包括 SQL 注入、命令注入和不受限制的文件上传的攻击组

数据集结构

特征

特征名称	描述
IPV4_SRC_ADDR	IPv4 源地址
IPV4_DST_ADDR	IPv4 目标地址
L4_SRC_PORT	IPv4 源端口号
L4_DST_PORT	IPv4 目标端口号
PROTOCOL	IP 协议标识符字节
L7_PROTO	第 7 层协议（数字）
IN_BYTES	传入字节数
OUT_BYTES	传出字节数
IN_PKTS	传入数据包数
OUT_PKTS	传出数据包数
FLOW_DURATION_MILLISECONDS	流持续时间（毫秒）
TCP_FLAGS	所有 TCP 标志的累积
CLIENT_TCP_FLAGS	所有客户端 TCP 标志的累积
SERVER_TCP_FLAGS	所有服务器 TCP 标志的累积
DURATION_IN	客户端到服务器的流持续时间（毫秒）
DURATION_OUT	客户端到服务器的流持续时间（毫秒）
MIN_TTL	最小流 TTL
MAX_TTL	最大流 TTL
LONGEST_FLOW_PKT	流中最长数据包（字节）
SHORTEST_FLOW_PKT	流中最短数据包（字节）
MIN_IP_PKT_LEN	观察到的最小流 IP 数据包长度
MAX_IP_PKT_LEN	观察到的最大流 IP 数据包长度
SRC_TO_DST_SECOND_BYTES	源到目标字节/秒
DST_TO_SRC_SECOND_BYTES	目标到源字节/秒
RETRANSMITTED_IN_BYTES	重传的 TCP 流字节数（源到目标）
RETRANSMITTED_IN_PKTS	重传的 TCP 流数据包数（源到目标）
RETRANSMITTED_OUT_BYTES	重传的 TCP 流字节数（目标到源）
RETRANSMITTED_OUT_PKTS	重传的 TCP 流数据包数（目标到源）
SRC_TO_DST_AVG_THROUGHPUT	源到目标平均吞吐量（bps）
DST_TO_SRC_AVG_THROUGHPUT	目标到源平均吞吐量（bps）
NUM_PKTS_UP_TO_128_BYTES	IP 大小 <= 128 的数据包数
NUM_PKTS_128_TO_256_BYTES	IP 大小 > 128 且 <= 256 的数据包数
NUM_PKTS_256_TO_512_BYTES	IP 大小 > 256 且 <= 512 的数据包数
NUM_PKTS_512_TO_1024_BYTES	IP 大小 > 512 且 <= 1024 的数据包数
NUM_PKTS_1024_TO_1514_BYTES	IP 大小 > 1024 且 <= 1514 的数据包数
TCP_WIN_MAX_IN	最大 TCP 窗口（源到目标）
TCP_WIN_MAX_OUT	最大 TCP 窗口（目标到源）
ICMP_TYPE	ICMP 类型 * 256 + ICMP 代码
ICMP_IPV4_TYPE	ICMP 类型
DNS_QUERY_ID	DNS 查询事务 ID
DNS_QUERY_TYPE	DNS 查询类型（例如 1=A, 2=NS...）
DNS_TTL_ANSWER	第一个 A 记录的 TTL（如果有）
FTP_COMMAND_RET_CODE	FTP 客户端命令返回代码

数据集配置

数据集信息

特征:
- input: 大字符串
- output: 类别标签，名称包括 0 和 1
- Attack: 类别标签，名称包括 Benign, Bot, Brute Force -Web, Brute Force -XSS, DDOS attack-HOIC, DDOS attack-LOIC-UDP, DDoS attacks-LOIC-HTTP, DoS attacks-GoldenEye, DoS attacks-Hulk, DoS attacks-SlowHTTPTest, DoS attacks-Slowloris, FTP-BruteForce, Infilteration, SQL Injection, SSH-Bruteforce
- __null_dask_index__: int64
分割:
- train: 17990690407 字节，17949022 样本
- test: 946856777 字节，944686 样本
下载大小: 3448494615 字节
数据集大小: 18937547184 字节

配置

配置名称: default
- 数据文件:
  - train: data/train-*
  - test: data/test-*

搜集汇总

数据集介绍

构建方式

NF-CSE-CIC-IDS2018-v2数据集基于CSE-CIC-IDS2018原始pcap文件生成，采用NetFlow技术构建。数据集包含18,893,708条网络流数据，其中2,258,141条（11.95%）为攻击样本，16,635,567条（88.05%）为正常流量。数据集的构建过程中，攻击类型标签被分层处理，训练集与测试集按照95%与5%的比例进行划分，确保了数据分布的均衡性。

使用方法

NF-CSE-CIC-IDS2018-v2数据集主要用于网络入侵检测系统的研究与开发。用户可通过HuggingFace平台下载数据集，并利用其提供的训练集与测试集进行模型训练与评估。数据集的每条记录均包含输入特征与输出标签，可直接用于监督学习任务。对于学术研究，使用该数据集需引用相关文献；商业用途则需与作者协商。

背景与挑战

背景概述

NF-CSE-CIC-IDS2018-v2数据集由Mohanad Sarhan等人于2022年创建，旨在为网络入侵检测系统（NIDS）提供一个标准化的特征集。该数据集基于CSE-CIC-IDS2018的原始pcap文件生成，包含了18,893,708条网络流数据，其中11.95%为攻击样本，88.05%为正常流量。数据集涵盖了多种攻击类型，如暴力破解、僵尸网络、分布式拒绝服务（DDoS）等，为网络安全领域的研究提供了丰富的数据支持。该数据集的研究成果发表在《Mobile Networks and Applications》期刊上，对网络入侵检测系统的标准化和性能提升具有重要影响。

当前挑战

NF-CSE-CIC-IDS2018-v2数据集在解决网络入侵检测问题时面临多重挑战。首先，网络攻击的多样性和复杂性使得数据集的构建需要涵盖多种攻击类型，且每种攻击的特征提取和标注都需精确无误。其次，数据集中正常流量与攻击流量的不平衡分布可能导致模型训练时的偏差，影响检测效果。此外，数据集的构建过程中，如何从原始pcap文件中高效提取并处理大规模网络流数据，同时确保数据的完整性和一致性，也是一个技术难点。这些挑战不仅考验了数据集的构建技术，也对后续的模型训练和评估提出了更高的要求。

常用场景

经典使用场景

NF-CSE-CIC-IDS2018-v2数据集广泛应用于网络流量分析和入侵检测系统的开发与评估。该数据集通过捕获真实的网络流量数据，提供了丰富的攻击类型和正常流量样本，使得研究人员能够在模拟真实网络环境的基础上，开发和测试高效的入侵检测算法。其经典使用场景包括机器学习模型的训练与验证，特别是在多分类问题中，如何准确识别不同类型的网络攻击行为。

解决学术问题

该数据集解决了网络入侵检测领域中的多个关键学术问题，尤其是在特征选择和模型泛化能力方面。通过提供标准化的网络流量特征集，研究人员能够更有效地比较不同算法的性能，并推动网络入侵检测技术的标准化进程。此外，该数据集还帮助解决了数据不平衡问题，通过提供大量攻击样本和正常流量样本，使得模型能够在多样化的数据上进行训练，从而提高检测的准确性和鲁棒性。

实际应用

在实际应用中，NF-CSE-CIC-IDS2018-v2数据集被广泛用于企业网络安全系统的开发和优化。通过利用该数据集，企业能够构建更加智能的入侵检测系统，实时监控网络流量，快速识别并响应潜在的网络攻击。此外，该数据集还被用于网络安全培训和教育，帮助安全工程师和研究人员更好地理解网络攻击的特征和防御策略。

数据集最近研究

社区讨论

#经验分享

【我遇到的问题】 • 现象：该数据集的下载链接已失效【相关信息】 • 可考虑访问这个链接获取类似文件~https://www.selectdataset.com/dataset/3688356173feccbcf1f1e490ddc6bc72

5,000+

优质数据集

54 个

任务类型

进入经典数据集