CIC-DDoS2019-15C
收藏Hugging Face2026-05-08 更新2026-05-09 收录
下载链接:
https://huggingface.co/datasets/RonaldoMPF/CIC-DDoS2019-15C
下载链接
链接失效反馈官方服务:
资源简介:
CIC-DDoS2019-15C 是一个经过预处理和特征选择的网络流量数据集,主要用于多类别分布式拒绝服务(DDoS)攻击检测。该数据集基于 CIC-DDoS2019 数据集,包含 15 个字段(索引、特征和标签),涵盖了 11 种不同类型的 DDoS 攻击(如 DrDoS_DNS、DrDoS_LDAP、Syn 等)以及良性流量(BENIGN),共计 12 个类别。数据集经过精心平衡,每个类别包含 50,000 个样本,总样本量为 600,000。这些样本已按 80:20 的比例划分为训练集和测试集,使用 `scikit-learn` 的 `train_test_split` 方法实现。该数据集适用于网络安全领域的多分类任务,特别是 DDoS 攻击检测与分类研究。
CIC-DDoS2019-15C is a preprocessed and feature-selected network traffic dataset primarily used for multi-class distributed denial of service (DDoS) attack detection. Based on the original CIC-DDoS2019 dataset, it contains 15 fields including index, features and labels, covering 11 distinct types of DDoS attacks (such as DrDoS_DNS, DrDoS_LDAP, Syn, etc.) and benign traffic (BENIGN), totaling 12 categories in all. The dataset is carefully balanced, with 50,000 samples per category, and the total sample size amounts to 600,000. These samples are split into training and test sets at an 80:20 ratio using the `train_test_split` method from the `scikit-learn` library. This dataset is suitable for multi-classification tasks in the field of cybersecurity, particularly research on DDoS attack detection and classification.
创建时间:
2026-04-24
原始信息汇总
数据集概述:CIC-DDoS2019-15C
基本信息
- 数据集名称:CIC-DDoS2019-15C
- 许可证:Creative Commons(CC)
- 来源:基于 CIC-DDoS2019 数据集进行预处理和特征选择后的版本
数据集内容
- 列数:15 列(包含索引、特征和标签)
- 用途:用于多类 DDoS 攻击检测
- 类别数量:12 类(11 种攻击类 + 1 种正常流量)
攻击类别详情
- DrDoS_DNS
- DrDoS_LDAP
- DrDoS_MSSQL
- DrDoS_NetBIOS
- DrDoS_NTP
- DrDoS_SNMP
- DrDoS_SSDP
- Syn
- TFTP
- DrDoS_UDP
- UDP-lag
- 正常流量:BENIGN
数据集平衡性
- 每个类别包含 50,000 个样本,数据集完美平衡
数据划分
- 采用
scikit-learn的train_test_split方法进行划分 - 训练集:80%
- 测试集:20%
- 随机种子:random_state=42
相关资源
搜集汇总
数据集介绍

构建方式
该数据集源自原始CIC-DDoS2019数据集,经过精心预处理与特征选择后形成,构建细节在《Distributed Denial of Service Detection: Enhancing Machine Learning Models for Multiclass Classification》论文中详述。原始数据历经清洗、归一化及基于信息增益等方法的特征筛选,最终精简为15列(包含索引、特征与标签),并依据scikit-learn的train_test_split函数以8:2比例划分为训练集与测试集,确保数据划分的随机性与可复现性。
使用方法
该数据集可直接用于训练与评估多分类DDoS检测模型。用户可加载CSV文件后,利用前13列作为特征输入,最后一列为类别标签。推荐采用随机森林、XGBoost或深度学习等算法进行多分类任务,并借助交叉验证优化超参数。原始预处理与特征选择代码已托管于Zenodo仓库(DOI: 10.5281/zenodo.14826677),便于复现与扩展研究。
背景与挑战
背景概述
随着网络攻击手段的日益复杂化,分布式拒绝服务(DDoS)攻击已成为威胁网络安全的主要形式之一。CIC-DDoS2019-15C数据集是由研究团队基于CIC-DDoS2019原始数据集进行预处理和特征选择后构建的,旨在提升机器学习模型在多类别DDoS攻击检测中的性能。该数据集创建于相关研究工作发表之际,核心研究问题在于如何通过精简特征维度和平衡类别分布,实现高效且准确的攻击分类。该数据集包含了11种常见的DDoS攻击类型(如DrDoS_DNS、DrDoS_LDAP等)以及良性流量,共计12个类别,每个类别均精确平衡至50,000个样本,为多分类检测任务提供了标准化的基准。其在网络入侵检测领域具有重要影响力,为后续模型评估和算法优化提供了可靠的数据基础。
当前挑战
在领域问题层面,DDoS攻击检测面临的核心挑战在于攻击流量的高度多样性和演变性,传统二分类方法难以区分多种攻击类型,而多类别分类则需要模型具备更强的判别能力。CIC-DDoS2019-15C数据集通过平衡采样和特征选择部分缓解了类别不均衡和维度灾难问题,但实际网络环境中攻击流量的动态变化和新型攻击的涌现仍对模型的泛化能力构成严峻考验。在数据构建过程中,挑战主要包括原始CIC-DDoS2019数据集的噪声处理、高维冗余特征的筛选(如通过论文中详述的特征选择方法)、以及确保各类别样本数量绝对均衡以避免训练偏差。此外,数据集分离为训练集和测试集时采用固定随机种子,虽具可重复性,但可能无法充分反映真实场景中流量分布的随机性,进而影响模型在实际部署中的鲁棒性。
常用场景
经典使用场景
CIC-DDoS2019-15C数据集专为多类别分布式拒绝服务(DDoS)攻击检测任务而构建,是网络流量分析领域的一项基准资源。该数据集囊括了11种典型DDoS攻击类型(如DrDoS_DNS、DrDoS_LDAP、Syn、TFTP等)以及正常流量(BENIGN),每类样本严格均衡至50,000条,总计60万条高保真流量记录。其经典使用场景聚焦于训练和评估机器学习与深度学习模型在多分类框架下的攻击识别能力,研究者可利用该数据集的15维精选特征(涵盖索引、流量属性和标签)开展高效的分类器设计与对比实验。由于完美平衡的类分布,该数据集特别适合研究类别不平衡问题下的模型鲁棒性,并为可重复性实验提供了标准化的训练/测试划分方案。
解决学术问题
该数据集重点解决了网络安全领域中多类别DDoS攻击实时检测与分类的学术难题。传统方法多聚焦于二分类(正常与攻击),难以应对日益复杂的混合攻击场景。通过提供涵盖12类流量的精细化标注数据,CIC-DDoS2019-15C使得研究者能够系统探究不同攻击向量在特征空间中的可区分性,推动从简单异常检测向细粒度攻击分类的范式演进。其严格的预处理与特征选择流程(源自论文DOI:10.1049/ntw2.70014)消除了冗余和噪声特征,为评估模型泛化能力提供了纯净的实验基准。该数据集的发布促进了基于集成学习、深度神经网络和迁移学习的DDoS检测方案革新,对提升网络基础设施的主动防御能力具有重要的理论价值和实践意义。
实际应用
在实际应用层面,CIC-DDoS2019-15C数据集为开发企业级入侵检测系统(IDS)和云端流量清洗服务提供了核心训练材料。安全厂商可基于该数据集训练多分类模型,实现对常见DDoS攻击(如NTP放大、MSSQL反射、SSDP洪水等)的快速鉴别,从而在真实网络环境中触发差异化响应策略。例如,针对资源消耗型攻击(如UDP-lag)和协议利用型攻击(如DrDoS_SNMP)可分别启动不同的流量过滤规则。此外,该数据集服务于可解释人工智能(XAI)在网络安全领域的部署,帮助运维人员理解模型决策依据,降低误报率。其均衡的类分布还适用于金融、政务等关键行业的高可靠流量监控系统,确保业务连续性与数据安全。
数据集最近研究
最新研究方向
随着分布式拒绝服务攻击手段日益复杂,多类别攻击流量的精确识别成为网络安全领域的前沿挑战。CIC-DDoS2019-15C数据集通过特征筛选与类别平衡处理,为多分类机器学习模型提供了高质量的训练基准。该数据集覆盖11种主流DDoS攻击变种与正常流量,采用分层采样策略确保每类样本量均衡,有效避免了类别不平衡导致的模型偏差。当前研究热点聚焦于利用该数据集评估集成学习与深度学习模型在细粒度攻击检测中的泛化能力,推动从二分类到多分类的检测范式转变,为实时防御体系构建提供了关键的数据支撑与技术验证平台。
以上内容由遇见数据集搜集并总结生成



