five

CICIDS 2017|网络流量分析数据集|网络安全数据集

收藏
github2024-08-06 更新2024-08-07 收录
网络流量分析
网络安全
下载链接:
https://github.com/imArjunMalik/network-anomaly-detection
下载链接
链接失效反馈
资源简介:
该数据集包含各种类型攻击和正常流量的标记网络流量数据,用于网络异常检测。
创建时间:
2024-07-20
原始信息汇总

数据集概述

数据集信息

  • 数据集名称: CICIDS 2017
  • 数据内容: 包含各种类型攻击和正常流量的标记网络流量数据。

预处理步骤

  1. 数据预处理:

    • 合并初始CSV文件(280万条记录)。
    • 移除缺失值。
    • 进行归一化处理。
  2. 标签编码:

    • 编码分类标签。
    • 0 = 异常,1 = 良性。
  3. 特征选择:

    • 使用随机森林进行特征重要性分析。
    • 从78个特征中选择前20个特征。
  4. 模型训练:

    • 将数据集分为训练集和测试集。
    • 构建并训练神经网络模型。
    • 应用早停法防止过拟合。

神经网络架构

  • 输入层: 接受前20个选定的特征。
  • 隐藏层: 两个隐藏层,使用ReLU激活函数和Dropout进行正则化。
    • 密集层,64个单元,ReLU激活。
    • Dropout层,0.5比率。
    • 密集层,32个单元,ReLU激活。
    • Dropout层,0.5比率。
  • 输出层: 使用Sigmoid激活函数输出二分类的概率得分。

模型训练

  • 优化器: Adam
  • 损失函数: 二元交叉熵
  • 评价指标: 准确率
  • 早停法: 监控验证损失,耐心值为5个周期。

模型评估

  • 混淆矩阵: 可视化真实标签与预测标签。
  • ROC曲线: 分析模型的诊断能力。
  • 训练曲线: 绘制训练和验证的损失及准确率随周期的变化。

结果

  • 混淆矩阵: 展示了模型正确和错误预测的数量。

    • 真阳性: 正确识别的良性流量。
    • 真阴性: 正确识别的异常流量。
    • 假阳性: 良性流量被错误分类为异常。
    • 假阴性: 异常流量被错误分类为良性。
  • ROC曲线: 展示了不同阈值设置下真阳性率和假阳性率的权衡。AUC值为0.99,表明模型性能优秀。

  • 训练和验证损失: 显示了模型损失随周期的变化,表明模型学习的效果。

  • 训练和验证准确率: 显示了模型准确率随周期的变化,表明模型预测与真实标签的对齐程度。

AI搜集汇总
数据集介绍
main_image_url
构建方式
在构建CICIDS 2017数据集时,研究者首先将多个初始CSV文件合并,形成一个包含280万条记录的大型数据集。随后,通过去除缺失值和标准化特征,确保数据的完整性和一致性。为了进一步优化模型性能,研究者采用随机森林算法进行特征选择,从中筛选出最具代表性的20个特征,这些特征从原始的78个特征中脱颖而出。最后,数据集被划分为训练集和测试集,为后续的神经网络模型训练提供了坚实的基础。
特点
CICIDS 2017数据集的显著特点在于其丰富的标注信息和经过精心筛选的特征集。该数据集不仅包含了多种类型的网络攻击和正常流量,还通过标签编码将数据分为异常(0)和良性(1)两类,为二分类任务提供了明确的目标。此外,通过随机森林算法筛选出的20个关键特征,极大地简化了模型的输入维度,提高了模型的训练效率和预测准确性。
使用方法
使用CICIDS 2017数据集时,用户首先需要安装Python 3.x环境,并确保所有必要的Python包已安装。随后,通过克隆GitHub仓库并进入项目目录,用户可以开始数据集的加载和预处理。在模型训练阶段,用户可以利用提供的神经网络架构进行训练,并根据训练和验证损失曲线调整模型参数。最终,通过评估混淆矩阵、ROC曲线和训练准确率等指标,用户可以全面评估模型的性能。
背景与挑战
背景概述
在当今数字化时代,网络安全问题日益突出。随着网络攻击的数量和复杂性不断增加,保护网络完整性变得至关重要。CICIDS 2017数据集应运而生,旨在通过提供标记的网络流量数据来增强网络安全性,这些数据包括各种类型的攻击和正常流量。该数据集由主要研究人员或机构在特定时间创建,其核心研究问题在于利用先进的神经网络技术识别和分类异常网络流量。CICIDS 2017数据集的发布对网络异常检测领域产生了深远影响,为研究人员提供了一个标准化的基准,推动了该领域的发展。
当前挑战
CICIDS 2017数据集在构建过程中面临了多个挑战。首先,数据集的初始规模庞大,包含280万条记录,需要进行复杂的数据预处理,包括缺失值的移除和特征的归一化。其次,标签编码和特征选择过程需要精确处理,以确保模型的有效性。此外,模型训练过程中需应对过拟合问题,通过应用早停法来优化模型性能。这些挑战不仅涉及技术层面的复杂性,还要求研究人员具备深厚的领域知识,以确保数据集的质量和实用性。
常用场景
经典使用场景
在当今数字化时代,网络安全问题日益突出。CICIDS 2017数据集通过提供标记的网络流量数据,支持了多种类型的攻击和正常流量的分类。该数据集的经典使用场景主要集中在网络异常检测领域,通过训练神经网络模型,识别和分类网络中的异常流量,从而提升网络安全性。
实际应用
在实际应用中,CICIDS 2017数据集被广泛用于开发和测试网络异常检测系统。例如,企业网络安全团队可以利用该数据集训练和优化其入侵检测系统,以提高对潜在威胁的识别能力。此外,政府和研究机构也利用该数据集进行网络安全研究,制定更有效的防御策略。
衍生相关工作
基于CICIDS 2017数据集,许多相关研究工作得以展开。例如,研究人员开发了多种基于深度学习的网络异常检测模型,这些模型在检测精度和效率上都有显著提升。此外,该数据集还促进了跨学科的研究,如结合机器学习和网络安全理论,探索更高效的网络防御机制。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

GAOKAO-Bench

GAOKAO-Bench是由复旦大学计算机科学与技术学院创建的数据集,涵盖了2010至2022年间中国高考的所有科目题目,共计2811题。该数据集包含1781道客观题和1030道主观题,题型多样,包括单选、填空、改错、开放性问题等。数据集通过自动化脚本和人工标注将PDF格式的题目转换为JSON文件,数学公式则转换为LATEX格式。GAOKAO-Bench旨在为大型语言模型提供一个全面且贴近实际应用的评估基准,特别是在解决中国高考相关问题上的表现。

arXiv 收录

Yahoo Finance

Dataset About finance related to stock market

kaggle 收录

中国陆域及周边逐日1km全天候地表温度数据集(TRIMS LST;2000-2023)

地表温度(Land surface temperature, LST)是地球表面与大气之间界面的重要参量之一。它既是地表与大气能量交互作用的直接体现,又对于地气过程具有复杂的反馈作用。因此,地表温度不仅是气候变化的敏感指示因子和掌握气候变化规律的重要前提,还是众多模型的直接输入参数,在许多领域有广泛的应用,如气象气候、环境生态、水文等。伴随地学及相关领域研究的深入和精细化,学术界对卫星遥感的全天候地表温度(All-weather LST)具有迫切的需求。 本数据集的制备方法是增强型的卫星热红外遥感-再分析数据集成方法。方法的主要输入数据为Terra/Aqua MODIS LST产品和GLDAS等数据,辅助数据包括卫星遥感提供的植被指数、地表反照率等。方法充分利用了卫星热红外遥感和再分析数据提供的地表温度高频分量、低频分量以及地表温度的空间相关性,最终重建得到较高质量的全天候地表温度数据集。 评价结果表明,本数据集具有良好的图像质量和精度,不仅在空间上无缝,还与当前学术界广泛采用的逐日1 km Terra/Aqua MODIS LST产品在幅值和空间分布上具有较高的一致性。当以MODIS LST为参考时,该数据集在白天和夜间的平均偏差(MBE)为0.09K和-0.03K,偏差标准差(STD)为1.45K和1.17K。基于19个站点实测数据的检验结果表明,其MBE为-2.26K至1.73K,RMSE为0.80K至3.68K,且在晴空与非晴空条件下无显著区别。 本数据集的时间分辨率为逐日4次,空间分辨率为1km,时间跨度为2000年-2023年;空间范围包括我国陆域的主要区域(包含港澳台地区,暂不包含我国南海诸岛)及周边区域(72°E-135°E,19°N-55°N)。本数据集的缩写名为TRIMS LST(Thermal and Reanalysis Integrating Moderate-resolution Spatial-seamless LST),以便用户使用。需要说明的是,TRIMS LST的空间子集TRIMS LST-TP(中国西部逐日1 km全天候地表温度数据集(TRIMS LST-TP;2000-2023)V2)同步在国家青藏高原科学数据中心发布,以减少相关用户数据下载和处理的工作量。

国家青藏高原科学数据中心 收录

中国空气质量数据集(2014-2020年)

数据集中的空气质量数据类型包括PM2.5, PM10, SO2, NO2, O3, CO, AQI,包含了2014-2020年全国360个城市的逐日空气质量监测数据。监测数据来自中国环境监测总站的全国城市空气质量实时发布平台,每日更新。数据集的原始文件为CSV的文本记录,通过空间化处理生产出Shape格式的空间数据。数据集包括CSV格式和Shape格式两数数据格式。

国家地球系统科学数据中心 收录

Fruits-360

一个高质量的水果图像数据集,包含多种水果的图像,如苹果、香蕉、樱桃等,总计42345张图片,分为训练集和验证集,共有64个水果类别。

github 收录