five

bvk/CICIDS-2017

收藏
Hugging Face2024-07-17 更新2024-07-22 收录
下载链接:
https://hf-mirror.com/datasets/bvk/CICIDS-2017
下载链接
链接失效反馈
官方服务:
资源简介:
CICIDS-2017数据集是通过收集5天的原始网络数据生成的,其中第一天用于生成良性数据,接下来的四天实施了多种类型的网络攻击,如暴力破解连接(FTP和SSH)、多种类型的DoS攻击、僵尸网络攻击、渗透攻击以及随后的端口扫描活动。数据通过CICFlowMeter工具处理,生成包含约80个特征的网络流数据,这些特征包括流持续时间、数据包大小等。数据集最初存在一些错误,后来经过修正并重新发布。

The CICIDS-2017 dataset was created by collecting raw network data over a period of 5 days, with the first day used to generate benign data and the next four days implementing various types of network attacks, such as Brute Force connections (FTP and SSH), several types of DoS attacks, a Botnet attack, Infiltration attacks, and subsequent Port-Scanning activity. The data was processed using the CICFlowMeter tool, resulting in network flow data with about 80 features, including flow duration, packet size, etc. The dataset initially had some errors, which were later corrected and re-released.
提供机构:
bvk
原始信息汇总

数据集概述

数据集名称

  • 名称: bvk/CICIDS-2017

数据集描述

  • 描述: 该数据集包含网络流量数据,用于网络流量分析和异常检测。数据以Parquet格式存储,由HF Mirror转换和提供。

数据集分布

  • 分布:
    • 类型: Git仓库

    • 名称: repo

    • 描述: HF Mirror的Git仓库。

    • 内容URL: https://hf-mirror.com/datasets/bvk/CICIDS-2017/tree/refs%2Fconvert%2Fparquet

    • 编码格式: git+https

    • 类型: Parquet文件集

    • 名称: parquet-files-for-config-default

    • 描述: 由HF Mirror转换的底层Parquet文件。

    • 包含于: repo

    • 编码格式: application/x-parquet

    • 包含文件: default//.parquet

数据集字段

  • 字段集: default
    • 名称: default

    • 描述: bvk/CICIDS-2017 - default子集

    • 字段列表:

      • 名称: default/Src_IP_dec

        • 描述: 来自HF Mirror Parquet文件的Src IP dec列。
        • 数据类型: Integer
      • 名称: default/Src_Port

        • 描述: 来自HF Mirror Parquet文件的Src Port列。
        • 数据类型: Integer
      • 名称: default/Dst_IP_dec

        • 描述: 来自HF Mirror Parquet文件的Dst IP dec列。
        • 数据类型: Integer
      • 名称: default/Dst_Port

        • 描述: 来自HF Mirror Parquet文件的Dst Port列。
        • 数据类型: Integer
      • 名称: default/Protocol

        • 描述: 来自HF Mirror Parquet文件的Protocol列。
        • 数据类型: Integer
      • 名称: default/Timestamp

        • 描述: 来自HF Mirror Parquet文件的Timestamp列。
        • 数据类型: Text
      • 名称: default/Flow_Duration

        • 描述: 来自HF Mirror Parquet文件的Flow Duration列。
        • 数据类型: Integer
      • 名称: default/Total_Fwd_Packet

        • 描述: 来自HF Mirror Parquet文件的Total Fwd Packet列。
        • 数据类型: Integer
      • 名称: default/Total_Bwd_packets

        • 描述: 来自HF Mirror Parquet文件的Total Bwd packets列。
        • 数据类型: Integer
      • 名称: default/Total_Length_of_Fwd_Packet

        • 描述: 来自HF Mirror Parquet文件的Total Length of Fwd Packet列。
        • 数据类型: Integer
      • 名称: default/Total_Length_of_Bwd_Packet

        • 描述: 来自HF Mirror Parquet文件的Total Length of Bwd Packet列。
        • 数据类型: Integer
      • 名称: default/Fwd_Packet_Length_Max

        • 描述: 来自HF Mirror Parquet文件的Fwd Packet Length Max列。
        • 数据类型: Integer
      • 名称: default/Fwd_Packet_Length_Min

        • 描述: 来自HF Mirror Parquet文件的Fwd Packet Length Min列。
        • 数据类型: Integer
      • 名称: default/Fwd_Packet_Length_Mean

        • 描述: 来自HF Mirror Parquet文件的Fwd Packet Length Mean列。
        • 数据类型: Float
      • 名称: default/Fwd_Packet_Length_Std

        • 描述: 来自HF Mirror Parquet文件的Fwd Packet Length Std列。
        • 数据类型: Float
      • 名称: default/Bwd_Packet_Length_Max

        • 描述: 来自HF Mirror Parquet文件的Bwd Packet Length Max列。
        • 数据类型: Integer
      • 名称: default/Bwd_Packet_Length_Min

        • 描述: 来自HF Mirror Parquet文件的Bwd Packet Length Min列。
        • 数据类型: Integer
      • 名称: default/Bwd_Packet_Length_Mean

        • 描述: 来自HF Mirror Parquet文件的Bwd Packet Length Mean列。
        • 数据类型: Float
      • 名称: default/Bwd_Packet_Length_Std

        • 描述: 来自HF Mirror Parquet文件的Bwd Packet Length Std列。
        • 数据类型: Float
      • 名称: default/Flow_Bytes_s

        • 描述: 来自HF Mirror Parquet文件的Flow Bytes/s列。
        • 数据类型: Float
      • 名称: default/Flow_Packets_s

        • 描述: 来自HF Mirror Parquet文件的Flow Packets/s列。
        • 数据类型: Float
      • 名称: default/Flow_IAT_Mean

        • 描述: 来自HF Mirror Parquet文件的Flow IAT Mean列。
        • 数据类型: Float
      • 名称: default/Flow_IAT_Std

        • 描述: 来自HF Mirror Parquet文件的Flow IAT Std列。
        • 数据类型: Float
      • 名称: default/Flow_IAT_Max

        • 描述: 来自HF Mirror Parquet文件的Flow IAT Max列。
        • 数据类型: Integer
      • 名称: default/Flow_IAT_Min

        • 描述: 来自HF Mirror Parquet文件的Flow IAT Min列。
        • 数据类型: Integer
      • 名称: default/Fwd_IAT_Total

        • 描述: 来自HF Mirror Parquet文件的Fwd IAT Total列。
        • 数据类型: Integer
      • 名称: default/Fwd_IAT_Mean

        • 描述: 来自HF Mirror Parquet文件的Fwd IAT Mean列。
        • 数据类型: Float
      • 名称: default/Fwd_IAT_Std

        • 描述: 来自HF Mirror Parquet文件的Fwd IAT Std列。
        • 数据类型: Float
      • 名称: default/Fwd_IAT_Max

        • 描述: 来自HF Mirror Parquet文件的Fwd IAT Max列。
        • 数据类型: Integer
      • 名称: default/Fwd_IAT_Min

        • 描述: 来自HF Mirror Parquet文件的Fwd IAT Min列。
        • 数据类型: Integer
      • 名称: default/Bwd_IAT_Total

        • 描述: 来自HF Mirror Parquet文件的Bwd IAT Total列。
        • 数据类型: Integer
      • 名称: default/Bwd_IAT_Mean

        • 描述: 来自HF Mirror Parquet文件的Bwd IAT Mean列。
        • 数据类型: Float
      • 名称: default/Bwd_IAT_Std

        • 描述: 来自HF Mirror Parquet文件的Bwd IAT Std列。
        • 数据类型: Float
      • 名称: default/Bwd_IAT_Max

        • 描述: 来自HF Mirror Parquet文件的Bwd IAT Max列。
        • 数据类型: Integer
      • 名称: default/Bwd_IAT_Min

        • 描述: 来自HF Mirror Parquet文件的Bwd IAT Min列。
        • 数据类型: Integer
搜集汇总
数据集介绍
main_image_url
构建方式
在网络安全研究领域,构建高质量的入侵检测数据集对于模型训练与评估至关重要。CICIDS-2017数据集通过为期五天的网络流量采集构建而成,其中首日主要收集良性流量,随后四天则模拟了多种攻击场景,包括暴力破解、拒绝服务攻击、僵尸网络攻击、渗透攻击及端口扫描等。原始PCAP数据经由CICFlowMeter工具处理,生成基于源与目的IP及端口的流轨迹,并提取了约80个特征,涵盖流持续时间、包大小、包数量等统计量,最终形成包含良性流量与15类攻击类别的标注数据集。
特点
该数据集在入侵检测领域具有显著的代表性与实用性。其特点在于覆盖了多样化的攻击类型,能够全面反映现实网络环境中的安全威胁。数据集经过后续修正,纠正了原始版本中流终止处理与样本标注的错误,提升了数据的准确性与一致性。特征方面,多数为数值型变量,辅以部分分类特征如IP地址与端口号,为机器学习模型提供了丰富的输入维度。数据以每日独立的CSV文件存储,便于按时间分段进行分析与实验。
使用方法
对于研究人员而言,CICIDS-2017数据集可直接用于入侵检测模型的训练与验证。使用者可通过相关GitHub仓库提供的Python代码高效导入数据,进行特征工程与模型构建。数据集支持多分类任务,区分良性流量与各类攻击,也可用于二分类异常检测。在应用时,建议注意数据的时间分段特性,并可利用修正后的版本以确保标签准确性。该数据集为评估检测算法的泛化能力与鲁棒性提供了标准化的基准。
背景与挑战
背景概述
随着网络攻击手段的日益复杂化,构建高质量的入侵检测数据集成为网络安全研究的关键基础。CICIDS-2017数据集由加拿大网络安全研究所(CIC)的研究团队于2017年创建,旨在提供真实网络环境下的流量数据,以支持入侵检测系统的开发与评估。该数据集采集了连续五日的网络原始数据,涵盖正常流量及多种攻击类型,如暴力破解、拒绝服务攻击、僵尸网络活动等,通过CICFlowMeter工具提取流量特征,形成包含约80个特征的标准化数据集。其发布显著推动了机器学习在网络安全领域的应用,为模型训练与性能比较提供了重要基准。
当前挑战
CICIDS-2017数据集致力于解决网络入侵检测中流量分类与攻击识别的核心难题,其挑战主要体现在两个方面:在领域问题层面,网络流量数据具有高维度、不平衡分布及攻击变异性强等特点,模型需准确区分正常行为与多样化攻击模式,同时应对新型攻击的泛化能力不足;在构建过程中,原始PCAP数据的处理面临流量分割与特征提取的技术复杂性,如TCP流终止机制的不完善导致标注错误,后续研究虽通过修正工具与重标注样本提升了数据质量,但数据清洗与特征工程的优化仍需持续努力。
常用场景
经典使用场景
在网络安全领域,入侵检测系统的性能评估依赖于高质量的网络流量数据集。CICIDS-2017数据集通过模拟真实网络环境中的多种攻击行为,如暴力破解、拒绝服务攻击、僵尸网络渗透及端口扫描等,为研究者提供了丰富的恶意流量样本。该数据集常被用于训练和测试机器学习模型,以识别异常网络行为,其多类别攻击标签和详细的流量特征使得模型能够学习复杂的攻击模式,从而提升检测的准确性和鲁棒性。
实际应用
在实际应用中,CICIDS-2017数据集被广泛部署于企业网络安全系统的原型开发与优化。例如,组织可利用该数据集训练实时入侵检测引擎,以监控网络流量中的异常模式,及时预警潜在威胁。此外,它还能用于评估现有安全产品的效能,帮助IT团队调整防御策略。通过模拟真实攻击场景,该数据集助力构建更可靠的防护体系,提升关键基础设施的韧性与响应能力。
衍生相关工作
基于CICIDS-2017数据集,学术界衍生了一系列经典研究工作。例如,研究者利用其开发了高效的深度学习模型,如卷积神经网络和长短期记忆网络,用于多分类攻击识别;同时,该数据集也促进了对抗性机器学习在入侵检测中的应用探索,以增强模型对规避攻击的抵抗力。这些工作不仅推动了检测技术的进步,还为后续数据集(如CIC-IDS2018)的构建提供了方法论参考,形成了持续迭代的研究脉络。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作