rdpahalavan/CIC-IDS2017

Name: rdpahalavan/CIC-IDS2017
Creator: rdpahalavan
Published: 2023-07-22 21:42:04
License: 暂无描述

Hugging Face2023-07-22 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/rdpahalavan/CIC-IDS2017

下载链接

链接失效反馈

官方服务：

资源简介：

`nids-datasets`包提供了从UNSW-NB15和CIC-IDS2017数据集中提取的专门策划的数据集。这些数据集最初是流量数据集，现已增强为包含来自原始PCAP文件的数据包级别信息。数据集包含超过2.3亿个数据包的数据包级别和流量级别数据，其中UNSW-NB15包含1.79亿个数据包，CIC-IDS2017包含5400万个数据包。数据集分为四个子集：网络流量、数据包字段、数据包字节和有效载荷字节。每个子集包含18个文件（网络流量子集除外，只有一个文件），数据以parquet格式存储。包提供了下载、合并、提取字节和读取数据集的功能。

提供机构：

rdpahalavan

原始信息汇总

NIDS Datasets 概述

数据集信息

支持的数据集

UNSW-NB15
CIC-IDS2017

数据集内容

包含正常流量和多种攻击流量。
UNSW-NB15 包含10种攻击类型，CIC-IDS2017 包含24种攻击类型。

数据集标签

UNSW-NB15 标签: normal, exploits, dos, fuzzers, generic, reconnaissance, worms, shellcode, backdoor, analysis
CIC-IDS2017 标签: BENIGN, FTP-Patator, SSH-Patator, DoS slowloris, DoS Slowhttptest, DoS Hulk, Heartbleed, Web Attack – Brute Force, Web Attack – XSS, Web Attack – SQL Injection, Infiltration, Bot, PortScan, DDoS, normal, exploits, dos, fuzzers, generic, reconnaissance, worms, shellcode, backdoor, analysis, DoS GoldenEye

数据集结构

Network-Flows: 包含流级数据。
Packet-Fields: 包含数据包头部信息。
Packet-Bytes: 包含数据包字节信息（0-255）。
Payload-Bytes: 包含有效载荷字节信息（0-255）。

数据集文件

每个子集包含18个文件（Network-Flows 除外，仅1个文件）。
数据以 parquet 格式存储。

数据集操作

数据集信息获取

使用 DatasetInfo 函数获取数据集概览。

数据集下载

使用 Dataset 类指定数据集、子集和文件进行下载。

数据集合并

使用 merge() 方法合并所有子集的数据。

字节提取

使用 Bytes() 方法从 Packet-Bytes 和 Payload-Bytes 子集中提取字节。

数据集读取

使用 read() 方法读取数据集，支持批量处理或单个数据包处理。

注意事项

数据集操作可能需要大量资源，确保有足够的磁盘空间和RAM。

搜集汇总

数据集介绍

构建方式

在网络安全领域，CIC-IDS2017数据集的构建基于原始的PCAP文件，通过提取和增强网络流量数据，形成了包含包级和流级信息的全面数据集。该数据集不仅涵盖了UNSW-NB15和CIC-IDS2017的原始流量数据，还通过解析原始PCAP文件，增加了包级信息，使得数据集更加丰富和详细。这种构建方式确保了数据集的高质量和多样性，为网络入侵检测提供了坚实的基础。

特点

CIC-IDS2017数据集的显著特点在于其包含了超过230百万个数据包的详细信息，其中179百万个来自UNSW-NB15，54百万个来自CIC-IDS2017。数据集不仅提供了流级数据，还包含了包头信息、包字节信息和负载字节信息，形成了四个主要子集。此外，数据集的标签系统详细，UNSW-NB15有10个独特标签，CIC-IDS2017有24个独特标签，涵盖了多种网络攻击类型，为研究者提供了丰富的分类和分析资源。

使用方法

使用CIC-IDS2017数据集时，首先通过pip安装nids-datasets包，然后导入Dataset和DatasetInfo类。用户可以选择下载全部或部分子集的数据，并通过Dataset类指定感兴趣的数据集、子集和文件进行下载。数据集以parquet格式存储，便于使用pandas进行读取和处理。此外，数据集提供了合并子集和提取字节的功能，进一步增强了数据处理的灵活性和效率。通过这些方法，研究者可以高效地利用该数据集进行网络入侵检测和网络安全分析。

背景与挑战

背景概述

在网络安全领域，网络入侵检测系统（NIDS）的研究和开发一直是关键课题。CIC-IDS2017数据集由加拿大网络安全研究所（CIC）于2017年创建，旨在为网络入侵检测提供一个全面且多样化的数据资源。该数据集包含了超过230百万个数据包，涵盖了从正常流量到多种攻击流量的广泛类别，包括但不限于DoS、DDoS、Web攻击和端口扫描等。CIC-IDS2017不仅提供了流级别的详细信息，还通过原始PCAP文件增强了数据包级别的信息，极大地丰富了研究者在网络入侵检测中的数据基础。

当前挑战

尽管CIC-IDS2017数据集为网络入侵检测提供了丰富的数据资源，但其构建和使用过程中仍面临诸多挑战。首先，数据集的庞大规模和高维度特性使得数据处理和存储成为一项技术难题，要求研究者具备高效的计算资源和存储能力。其次，数据集中包含的多种攻击类型和复杂的网络流量模式增加了模型训练的难度，需要开发更为精细和鲁棒的算法来准确识别和分类各种网络威胁。此外，数据集的更新和维护也是一个持续的挑战，以确保其能够反映当前网络环境的最新变化和威胁趋势。

常用场景

经典使用场景

在网络安全领域，CIC-IDS2017数据集被广泛用于网络入侵检测系统的开发与评估。该数据集包含了从原始PCAP文件中提取的包级和流级信息，涵盖了超过23000万个数据包。研究者们利用这一数据集进行分类模型的训练，以识别和区分正常流量与各种类型的攻击流量，如DDoS、Web攻击和端口扫描等。通过分析数据集中的特征，如包头信息、包字节和负载字节，研究者能够构建和优化网络入侵检测算法，从而提高系统的准确性和响应速度。

实际应用

在实际应用中，CIC-IDS2017数据集被广泛用于企业和组织的网络安全防护系统中。通过使用该数据集训练的模型，企业可以实时监控网络流量，及时发现并阻止潜在的网络攻击。例如，金融机构利用这些模型来检测异常交易行为，防止金融欺诈；医疗机构则通过这些模型保护患者数据的安全，避免数据泄露。此外，政府和军事机构也利用该数据集来加强关键基础设施的网络安全防护，确保国家安全。

衍生相关工作

基于CIC-IDS2017数据集，研究者们开展了一系列相关工作，推动了网络入侵检测技术的发展。例如，有研究提出了基于深度学习的入侵检测模型，利用数据集中的大量数据进行训练，显著提高了检测的准确性。此外，还有研究探讨了如何结合传统的机器学习方法与深度学习技术，以应对不同类型的网络攻击。这些工作不仅丰富了网络安全的研究内容，也为实际应用提供了新的技术手段。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集