cic-ids-2017|网络入侵检测数据集|文本分类数据集

huggingface2025-04-12 更新2025-04-13 收录

网络入侵检测

文本分类

下载链接：

https://huggingface.co/datasets/sonnh-tech1/cic-ids-2017

下载链接

链接失效反馈

资源简介：

这是一个包含网络流量统计信息的数据集，适用于文本分类任务。它包含了诸如目的地端口、流量持续时间、总转发数据包数等众多特征。数据集分为三个配置：binary、classmap和raw，每个配置都提供了训练集。标签字段用于指示数据分类。

创建时间：

2025-04-10

AI搜集汇总

数据集介绍

构建方式

在网络安全领域，CIC-IDS-2017数据集通过模拟真实网络环境中的多种攻击场景构建而成。该数据集采集自加拿大网络安全研究所的测试平台，采用B-Profile系统生成正常流量背景，并注入包括暴力破解、DDoS、渗透测试等七类典型攻击流量。数据捕获过程使用CICFlowMeter工具进行流量特征提取，最终形成包含80个网络流统计特征的标准化记录，每条记录标注了具体的攻击类型或正常流量标识。

特点

该数据集最显著的特点是具备多维度的网络流量特征表征能力，涵盖流持续时间、数据包大小统计量、TCP标志位计数等80个精细特征。其优势在于攻击场景覆盖全面，包含2017年最新出现的网络攻击模式，且通过时间戳字段保留了攻击的时间连续性特征。不同于早期数据集，CIC-IDS-2017特别注重特征工程的可解释性，每个特征都对应明确网络行为语义，为机器学习模型提供丰富的分析维度。

使用方法

研究人员可通过HuggingFace平台直接加载二进制、分类映射或原始三种数据配置。典型应用流程包括：使用scikit-learn进行特征标准化处理，基于PyTorch构建LSTM等时序模型检测攻击，或采用XGBoost进行特征重要性分析。数据集特别适合纵向研究，因其包含完整攻击生命周期数据，可支持从早期异常检测到攻击类型分类的全流程实验设计。需要注意的是，处理时应考虑数据不平衡问题，某些攻击类别的样本量显著少于正常流量样本。

背景与挑战

背景概述

CIC-IDS-2017数据集由加拿大网络安全研究所（Canadian Institute for Cybersecurity, CIC）于2017年推出，旨在为入侵检测系统（IDS）的研究提供高质量的基准数据。该数据集捕捉了现代网络环境中的多样化攻击模式，包括暴力破解、心脏滴血攻击、端口扫描等多种网络威胁。通过模拟真实网络流量环境，CIC-IDS-2017为机器学习与深度学习模型在网络安全领域的应用提供了丰富的训练与测试资源，显著推动了入侵检测技术的进步。

当前挑战

CIC-IDS-2017数据集面临的挑战主要体现在两个方面：首先，网络攻击手段的不断演进使得现有数据可能无法覆盖新型攻击模式，导致模型泛化能力受限；其次，数据采集过程中需平衡隐私保护与数据真实性，匿名化处理可能削弱关键特征的判别力。此外，数据集中类别不平衡问题突出，稀有攻击类别的样本不足可能影响模型对少数类攻击的检测性能。构建过程中，多源异构网络流量的实时捕获与精确标注也面临巨大技术挑战。

常用场景

经典使用场景

在网络安全领域，CIC-IDS-2017数据集作为网络流量分析的基准数据集，广泛应用于入侵检测系统的开发与评估。该数据集通过捕获真实网络环境中的多样化攻击流量，包括暴力破解、DoS、渗透测试等攻击类型，为研究者提供了丰富的网络行为特征。其多维度的流量统计特征，如数据包长度、流持续时间、标志位计数等，使得该数据集成为训练和测试机器学习模型的理想选择。

衍生相关工作

基于CIC-IDS-2017的经典研究包括深度学习方法在入侵检测中的创新应用，如结合LSTM网络的时间序列分析框架。许多研究通过特征选择算法优化检测效率，衍生出基于随机森林的轻量级检测方案。该数据集还催生了多个扩展研究，包括网络攻击溯源系统和自适应检测模型的开发，持续推动着网络安全领域的技术演进。

数据集最近研究

最新研究方向

在网络安全领域，CIC-IDS-2017数据集因其丰富的网络流量特征和多样化的攻击类型标注，成为入侵检测系统研究的重要基准。近年来，随着深度学习技术的快速发展，该数据集被广泛应用于基于深度神经网络的异常流量检测模型训练，特别是在对抗性攻击防御和零日攻击识别方面展现出巨大潜力。与此同时，联邦学习框架下的分布式入侵检测研究也逐步采用该数据集，以探索在保护数据隐私前提下的多机构协作安全监测模式。随着物联网设备的普及和5G网络的部署，针对该数据集的时空特征建模研究正成为新的热点，旨在解决大规模网络环境中低延迟攻击检测的挑战。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

Med-MAT

Med-MAT是一个包含106个开源医学数据集的视觉问答（VQA）数据集，旨在推动医学多模态大语言模型（MLLMs）的泛化实验和训练。数据集通过将图像-标签对转换为VQA格式，展示了组合泛化（CG）是MLLMs理解未见图像的关键机制。数据集包括106个医学数据集的问答对、53个按模态、解剖区域和任务（MAT）分类的子集的问答对，以及部分数据集的图像下载链接。

huggingface 收录

rag-datasets/rag-mini-bioasq

该数据集主要用于问答和句子相似性任务，涉及生物医学领域。数据集包含两个配置：text-corpus和question-answer-passages，分别对应不同的数据文件路径。数据集来源于BioASQ任务11b的训练数据集，并通过`generate.py`脚本生成了子集。

hugging_face 收录

Sleep

该数据集包含关于睡眠效率和持续时间的信息，每个条目代表一个独特的睡眠体验，并包括ID、年龄、性别、睡眠持续时间、睡眠效率、REM睡眠百分比、深度睡眠百分比、轻度睡眠百分比、觉醒次数、咖啡因消费、酒精消费和吸烟状况等列。

github 收录

OECD - Education at a Glance

该数据集提供了关于教育系统在不同国家和地区的详细统计数据，包括教育支出、教育参与率、教育成果、教师资源等多个方面。数据涵盖了OECD成员国以及部分非成员国。

www.oecd.org 收录

EmoBench-M

EmoBench-M是由深圳大学计算机科学与软件工程学院等机构创建的一个新型基准数据集，旨在评估大型多模态语言模型在情感智能方面的能力。该数据集基于心理学的情感理论，包含13个评估场景，涵盖了基础情感识别、对话情感理解和复杂社会情感分析三个维度。数据集采用视频、音频和文本等多模态数据，为评估大型多模态语言模型在真实世界交互中的情感智能提供了全面的基准。

arXiv 收录