five

init5iv3/network-traffic-detection

收藏
Hugging Face2026-05-01 更新2026-04-26 收录
下载链接:
https://hf-mirror.com/datasets/init5iv3/network-traffic-detection
下载链接
链接失效反馈
官方服务:
资源简介:
一个用于网络流量异常检测的精选数据集,源自BCCC-CSE-CIC-IDS2018入侵检测数据集,该数据集本身是CSE-CIC-IDS2018的增强版本。此数据集经过重构,适用于现代机器学习和深度学习在网络安全和入侵检测方面的研究。原始数据集(约90GB)分散在34个.csv文件中。为了优化ML工作流程,数据被合并并压缩为.parquet块。在合并过程中,18列出现了数据类型不匹配的问题,这些列被类型转换为Utf8。数据集包含通过NTLFlowLyzer提取的300多个网络流特征,适用于二进制和多类分类任务。

A curated dataset for network traffic anomaly detection, derived from the BCCC-CSE-CIC-IDS2018 intrusion detection dataset, which itself is an enhanced version of CSE-CIC-IDS2018. This dataset is restructured for modern machine learning and deep learning research on network security and intrusion detection. The raw dataset (~90GB) was fragmented across 34 .csv files. To optimize for ML workflows, the data was merged and compressed into .parquet chunks. During the merge, 18 columns exhibited data-type mismatches, and these specific columns were type-cast to Utf8. The dataset contains over 300 network flow features extracted via NTLFlowLyzer and is suitable for binary and multi-class classification.
提供机构:
init5iv3
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集源自BCCC-CSE-CIC-IDS2018入侵检测数据集,原始数据体积约90GB,分散在34个CSV文件中。为适配现代机器学习与深度学习工作流,研究者利用Polars库将数据合并并压缩为Parquet格式的分块文件。在合并过程中,鉴于18列存在数据类型不一致问题(如同时包含float64值与'not a complete handshake'等字符串),这些列被统一转换为Utf8类型,从而保证了数据结构的完整性与兼容性。
特点
数据集包含超过300项经由NTLFlowLyzer提取的网络流特征,适用于二元分类与多类别分类任务。其中,非良性标签合并了多种攻击类别,涵盖DoS、DDoS、暴力破解、SQL注入、僵尸网络及渗透等14种攻击类型,为网络异常检测与安全研究提供了丰富且细粒度的标注样本。数据以Parquet格式存储,在保留原始信息量的同时显著提升了存储与读取效率。
使用方法
由于数据集体量庞大,直接加载至内存易导致崩溃,建议采用惰性计算或分批次策略进行访问。用户可通过Hugging Face Datasets库的流式接口迭代读取数据,或使用CLI工具、snapshot_download将Parquet文件下载至本地目录。本地处理时可借助Polars的scan_parquet功能实现分块惰性扫描,也可利用Datasets库的iter方法以逐批次方式完成特征提取与模型训练。
背景与挑战
背景概述
网络入侵检测是网络安全领域的核心议题,其依赖于大规模、高质量的数据集来训练和评估机器学习与深度学习模型。该数据集由研究人员init5iv3于2026年构建,其原始来源为约克大学行为中心网络安全实验室发布的BCCC-CSE-CIC-IDS2018数据集,后者承袭自CSE-CIC-IDS2018,旨在捕捉真实网络环境中的多样化攻击流量。核心研究问题聚焦于如何将分散、原始的入侵检测数据转化为现代机器学习流程可直接使用的格式,以支持二分类与多分类任务。数据集涵盖超过300项网络流特征,涉及DDoS、暴力破解、SQL注入、僵尸网络等14类攻击标签,为网络安全社区提供了标准化、可复用的研究资源,对推动入侵检测算法的泛化能力与实用性具有重要意义。
当前挑战
该数据集面临的挑战兼具领域问题之困与构建过程之艰。从领域视角看,网络入侵检测的核心挑战在于攻击行为的动态演化与数据不平衡——良性流量占据绝大多数,而新型攻击类型层出不穷,导致模型易对少数类攻击产生严重漏报;此外,高维特征空间(超300维)中冗余与噪声的存在增加了过拟合风险。在构建层面,原始数据规模庞大(约90GB),分散于34个CSV文件,合并过程中18列存在数据类型不一致问题(如数值与字符串混杂),不得不强制转换为统一文本格式,可能引入信息损失。数据压缩为parquet格式虽优化存储与加载,但内存溢出的风险依然存在,需依赖惰性求值或流式处理策略,对用户的计算资源与编程技巧提出了额外要求。
常用场景
经典使用场景
在网络空间安全研究领域,该数据集被广泛用于训练和评估基于机器学习的入侵检测系统。研究人员将其作为基准,开展二分类任务(区分良性流量与恶意流量)以及多分类任务(识别包括DoS-Hulk、DDoS-LOIC、SQL注入、僵尸网络在内的十多种具体攻击类型)。数据集中包含超过300个由NTLFlowLyzer提取的网络流特征,为特征工程和模型泛化能力的验证提供了丰富的实验素材。
解决学术问题
该数据集有效解决了大规模入侵检测数据难以直接用于机器学习实验的痛点。原始BCCC-CSE-CIC-IDS2018数据集分散在34个CSV文件中,存在数据类型不一致等问题,严重阻碍了科研工作的开展。通过数据融合、类型转换和压缩存储,该数据集显著降低了数据预处理门槛,使得学者能够将更多精力聚焦于检测算法创新,推动网络流量异常检测研究从传统规则方法向深度学习范式转型。
衍生相关工作
该数据集衍生了一系列具有影响力的学术成果。原始论文提出了NTLFlowLyzer框架用于网络流量特征提取,为构建统一的数据表示规范奠定了基础。后续研究基于该数据集展开了对抗样本防御、联邦学习隐私保护、跨域迁移检测等多个方向的探索。同时,该数据集也被用作CSE-CIC-IDS2018的增强基准,在多个国际网络安全竞赛和评测任务中频繁出现,成为评价异常检测算法鲁棒性和准确性的重要参考标准。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作