【我遇到的问题】 • 现象:该数据集的下载链接已失效 【相关信息】 • 可考虑访问这个链接获取类似文件~https://www.selectdataset.com/dataset/3688356173feccbcf1f1e490ddc6bc72
Jetlime/NF-CSE-CIC-IDS2018-v2
收藏Hugging Face2024-05-24 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/Jetlime/NF-CSE-CIC-IDS2018-v2
下载链接
链接失效反馈官方服务:
资源简介:
NF-CSE-CIC-IDS2018-v2数据集是基于CSE-CIC-IDS2018原始pcap文件生成的NetFlow数据集,主要用于网络流量入侵检测系统。数据集中包含18,893,708条流量记录,其中2,258,141条(11.95%)为攻击样本,16,635,567条(88.05%)为正常流量。数据集按攻击类型分层,以95%和5%的比例分为训练集和测试集。数据集的特征包括源IP地址、目的IP地址、端口号、协议类型、字节数、数据包数、流持续时间等。数据集的学术研究使用需引用相关论文,商业用途需与作者协商。
NF-CSE-CIC-IDS2018-v2数据集是基于CSE-CIC-IDS2018原始pcap文件生成的NetFlow数据集,主要用于网络流量入侵检测系统。数据集中包含18,893,708条流量记录,其中2,258,141条(11.95%)为攻击样本,16,635,567条(88.05%)为正常流量。数据集按攻击类型分层,以95%和5%的比例分为训练集和测试集。数据集的特征包括源IP地址、目的IP地址、端口号、协议类型、字节数、数据包数、流持续时间等。数据集的学术研究使用需引用相关论文,商业用途需与作者协商。
提供机构:
Jetlime
原始信息汇总
数据集描述
NF-CSE-CIC-IDS2018-v2 数据集是从 CSE-CIC-IDS2018 数据集的原始 pcap 文件生成的基于 NetFlow 的数据集。总共有 18,893,708 个流,其中 2,258,141(11.95%)是攻击样本,16,635,567(88.05%)是良性样本。
数据集分布
| 类别 | 数量 | 描述 |
|---|---|---|
| Benign | 7373198 | 正常的非恶意流 |
| BruteForce | 287597 | 通过访问预定义的可能性列表来获取用户名和密码凭证的技术 |
| Bot | 15683 | 攻击者远程控制多个被劫持的计算机执行恶意活动的攻击 |
| DoS | 269361 | 试图通过超载计算机系统的资源来阻止对其数据或服务的访问 |
| DDoS | 380096 | 类似于 DoS 的攻击,但有多个不同的分布式来源 |
| Infiltration | 62072 | 内部攻击,通过电子邮件发送恶意文件以利用应用程序,随后通过后门扫描网络以寻找其他漏洞 |
| Web Attacks | 4394 | 包括 SQL 注入、命令注入和不受限制的文件上传的攻击组 |
数据集结构
特征
| 特征名称 | 描述 |
|---|---|
| IPV4_SRC_ADDR | IPv4 源地址 |
| IPV4_DST_ADDR | IPv4 目标地址 |
| L4_SRC_PORT | IPv4 源端口号 |
| L4_DST_PORT | IPv4 目标端口号 |
| PROTOCOL | IP 协议标识符字节 |
| L7_PROTO | 第 7 层协议(数字) |
| IN_BYTES | 传入字节数 |
| OUT_BYTES | 传出字节数 |
| IN_PKTS | 传入数据包数 |
| OUT_PKTS | 传出数据包数 |
| FLOW_DURATION_MILLISECONDS | 流持续时间(毫秒) |
| TCP_FLAGS | 所有 TCP 标志的累积 |
| CLIENT_TCP_FLAGS | 所有客户端 TCP 标志的累积 |
| SERVER_TCP_FLAGS | 所有服务器 TCP 标志的累积 |
| DURATION_IN | 客户端到服务器的流持续时间(毫秒) |
| DURATION_OUT | 客户端到服务器的流持续时间(毫秒) |
| MIN_TTL | 最小流 TTL |
| MAX_TTL | 最大流 TTL |
| LONGEST_FLOW_PKT | 流中最长数据包(字节) |
| SHORTEST_FLOW_PKT | 流中最短数据包(字节) |
| MIN_IP_PKT_LEN | 观察到的最小流 IP 数据包长度 |
| MAX_IP_PKT_LEN | 观察到的最大流 IP 数据包长度 |
| SRC_TO_DST_SECOND_BYTES | 源到目标字节/秒 |
| DST_TO_SRC_SECOND_BYTES | 目标到源字节/秒 |
| RETRANSMITTED_IN_BYTES | 重传的 TCP 流字节数(源到目标) |
| RETRANSMITTED_IN_PKTS | 重传的 TCP 流数据包数(源到目标) |
| RETRANSMITTED_OUT_BYTES | 重传的 TCP 流字节数(目标到源) |
| RETRANSMITTED_OUT_PKTS | 重传的 TCP 流数据包数(目标到源) |
| SRC_TO_DST_AVG_THROUGHPUT | 源到目标平均吞吐量(bps) |
| DST_TO_SRC_AVG_THROUGHPUT | 目标到源平均吞吐量(bps) |
| NUM_PKTS_UP_TO_128_BYTES | IP 大小 <= 128 的数据包数 |
| NUM_PKTS_128_TO_256_BYTES | IP 大小 > 128 且 <= 256 的数据包数 |
| NUM_PKTS_256_TO_512_BYTES | IP 大小 > 256 且 <= 512 的数据包数 |
| NUM_PKTS_512_TO_1024_BYTES | IP 大小 > 512 且 <= 1024 的数据包数 |
| NUM_PKTS_1024_TO_1514_BYTES | IP 大小 > 1024 且 <= 1514 的数据包数 |
| TCP_WIN_MAX_IN | 最大 TCP 窗口(源到目标) |
| TCP_WIN_MAX_OUT | 最大 TCP 窗口(目标到源) |
| ICMP_TYPE | ICMP 类型 * 256 + ICMP 代码 |
| ICMP_IPV4_TYPE | ICMP 类型 |
| DNS_QUERY_ID | DNS 查询事务 ID |
| DNS_QUERY_TYPE | DNS 查询类型(例如 1=A, 2=NS...) |
| DNS_TTL_ANSWER | 第一个 A 记录的 TTL(如果有) |
| FTP_COMMAND_RET_CODE | FTP 客户端命令返回代码 |
数据集配置
数据集信息
-
特征:
input: 大字符串output: 类别标签,名称包括 0 和 1Attack: 类别标签,名称包括 Benign, Bot, Brute Force -Web, Brute Force -XSS, DDOS attack-HOIC, DDOS attack-LOIC-UDP, DDoS attacks-LOIC-HTTP, DoS attacks-GoldenEye, DoS attacks-Hulk, DoS attacks-SlowHTTPTest, DoS attacks-Slowloris, FTP-BruteForce, Infilteration, SQL Injection, SSH-Bruteforce__null_dask_index__: int64
-
分割:
train: 17990690407 字节,17949022 样本test: 946856777 字节,944686 样本
-
下载大小: 3448494615 字节
-
数据集大小: 18937547184 字节
配置
- 配置名称: default
- 数据文件:
train: data/train-*test: data/test-*
- 数据文件:
搜集汇总
数据集介绍

构建方式
NF-CSE-CIC-IDS2018-v2数据集基于CSE-CIC-IDS2018原始pcap文件生成,采用NetFlow技术构建。数据集包含18,893,708条网络流数据,其中2,258,141条(11.95%)为攻击样本,16,635,567条(88.05%)为正常流量。数据集的构建过程中,攻击类型标签被分层处理,训练集与测试集按照95%与5%的比例进行划分,确保了数据分布的均衡性。
使用方法
NF-CSE-CIC-IDS2018-v2数据集主要用于网络入侵检测系统的研究与开发。用户可通过HuggingFace平台下载数据集,并利用其提供的训练集与测试集进行模型训练与评估。数据集的每条记录均包含输入特征与输出标签,可直接用于监督学习任务。对于学术研究,使用该数据集需引用相关文献;商业用途则需与作者协商。
背景与挑战
背景概述
NF-CSE-CIC-IDS2018-v2数据集由Mohanad Sarhan等人于2022年创建,旨在为网络入侵检测系统(NIDS)提供一个标准化的特征集。该数据集基于CSE-CIC-IDS2018的原始pcap文件生成,包含了18,893,708条网络流数据,其中11.95%为攻击样本,88.05%为正常流量。数据集涵盖了多种攻击类型,如暴力破解、僵尸网络、分布式拒绝服务(DDoS)等,为网络安全领域的研究提供了丰富的数据支持。该数据集的研究成果发表在《Mobile Networks and Applications》期刊上,对网络入侵检测系统的标准化和性能提升具有重要影响。
当前挑战
NF-CSE-CIC-IDS2018-v2数据集在解决网络入侵检测问题时面临多重挑战。首先,网络攻击的多样性和复杂性使得数据集的构建需要涵盖多种攻击类型,且每种攻击的特征提取和标注都需精确无误。其次,数据集中正常流量与攻击流量的不平衡分布可能导致模型训练时的偏差,影响检测效果。此外,数据集的构建过程中,如何从原始pcap文件中高效提取并处理大规模网络流数据,同时确保数据的完整性和一致性,也是一个技术难点。这些挑战不仅考验了数据集的构建技术,也对后续的模型训练和评估提出了更高的要求。
常用场景
经典使用场景
NF-CSE-CIC-IDS2018-v2数据集广泛应用于网络流量分析和入侵检测系统的开发与评估。该数据集通过捕获真实的网络流量数据,提供了丰富的攻击类型和正常流量样本,使得研究人员能够在模拟真实网络环境的基础上,开发和测试高效的入侵检测算法。其经典使用场景包括机器学习模型的训练与验证,特别是在多分类问题中,如何准确识别不同类型的网络攻击行为。
解决学术问题
该数据集解决了网络入侵检测领域中的多个关键学术问题,尤其是在特征选择和模型泛化能力方面。通过提供标准化的网络流量特征集,研究人员能够更有效地比较不同算法的性能,并推动网络入侵检测技术的标准化进程。此外,该数据集还帮助解决了数据不平衡问题,通过提供大量攻击样本和正常流量样本,使得模型能够在多样化的数据上进行训练,从而提高检测的准确性和鲁棒性。
实际应用
在实际应用中,NF-CSE-CIC-IDS2018-v2数据集被广泛用于企业网络安全系统的开发和优化。通过利用该数据集,企业能够构建更加智能的入侵检测系统,实时监控网络流量,快速识别并响应潜在的网络攻击。此外,该数据集还被用于网络安全培训和教育,帮助安全工程师和研究人员更好地理解网络攻击的特征和防御策略。
数据集最近研究
最新研究方向
在网络安全领域,NF-CSE-CIC-IDS2018-v2数据集的最新研究方向主要集中在利用深度学习技术提升网络入侵检测系统的性能。随着网络攻击手段的日益复杂化,传统的基于规则的检测方法已难以应对新型攻击。研究者们通过引入卷积神经网络(CNN)和长短期记忆网络(LSTM)等深度学习模型,能够更有效地从海量网络流量数据中提取特征,识别出潜在的恶意行为。此外,该数据集还被广泛应用于多标签分类问题的研究,旨在同时检测多种攻击类型,从而提高检测的全面性和准确性。这些研究不仅推动了网络入侵检测技术的发展,也为实际应用中的网络安全防护提供了有力支持。
以上内容由遇见数据集搜集并总结生成



