CIC-DDoS2019|网络安全数据集|DDoS攻击数据集
收藏CIC-DDoS2019 数据集概述
数据集信息
- 数据集名称: CIC-DDoS2019
- 文件名称:
Friday-WorkingHours-Afternoon-DDos.pcap_ISCX.csv
- 数据类型: 网络流量数据,包含正常流量和DDoS攻击实例
- 数据来源:
- Kaggle: Kaggle链接
- 原始来源: 加拿大网络安全研究所
数据集处理
探索性数据分析 (EDA)
- 数据概览: 显示数据集形状、列名和数据类型
- 缺失值处理: 识别并处理缺失值
- 无效数值处理: 替换无效数值(如无穷大)
- 可视化:
- 缺失值柱状图
- 数值特征分布直方图
- 数值特征箱线图(检测并可视化异常值)
- 目标变量分布饼图
数据预处理
- 目标编码: 将目标列 (
Label
) 转换为数值 - 分类编码: 对所有分类特征进行标签编码
- 特征移除: 删除不必要的列(如
Timestamp
) - 缺失值和无效值处理: 使用列均值填充缺失值,替换无限值
- 数据标准化: 使用
StandardScaler
标准化特征 - 数据分割: 按 80:20 比例分割训练集和测试集
特征工程
- 特征重要性: 使用
SelectKBest
和 ANOVA F-value 选择前10个特征 - 异常值检测: 通过箱线图识别异常值
模型与结果
机器学习模型
- 支持向量机 (SVM):
- 超参数调优:
C
(正则化) 和 核类型 (linear
,rbf
) - 性能: 高精度、召回率和F1分数
- 超参数调优:
- 随机森林分类器:
- 超参数调优:
n_estimators
(树数量) 和max_depth
(树深度) - 性能: 高准确率,平衡的分类报告和F1分数
- 超参数调优:
- XGBoost分类器:
- 超参数调优:
learning_rate
和n_estimators
- 性能: 高精度、召回率和整体准确率
- 超参数调优:
深度学习模型
- 架构:
- 输入层: 64个神经元
- 隐藏层: 两层ReLU激活,批量归一化,30% dropout
- 输出层: Softmax激活
- 优化: Adam优化器,学习率调整,早停和学习率衰减
- 性能: 训练/验证准确率和损失曲线,混淆矩阵和分类报告
结果与发现
- 机器学习模型: SVM、随机森林和XGBoost在DDoS检测中表现优异
- 深度学习模型: 竞争性准确率和召回率
- EDA洞察: 类分布不平衡,数值特征中的异常值
- 特征工程: 重要特征显著提升分类准确率

中国农村金融统计数据
该数据集包含了中国农村金融的统计信息,涵盖了农村金融机构的数量、贷款余额、存款余额、金融服务覆盖率等关键指标。数据按年度和地区分类,提供了详细的农村金融发展状况。
www.pbc.gov.cn 收录
TT100K - Tsinghua-Tencent 100K
TT100K数据集是一个用于交通标志检测和识别的大规模数据集,包含100,000张标注的交通标志图像。该数据集主要用于计算机视觉和自动驾驶领域的研究。
cg.cs.tsinghua.edu.cn 收录
Beijing Traffic
The Beijing Traffic Dataset collects traffic speeds at 5-minute granularity for 3126 roadway segments in Beijing between 2022/05/12 and 2022/07/25.
Papers with Code 收录
基于站点观测的中国1km土壤湿度日尺度数据集(2000-2022)
本研究提供了中国范围1km高质量的土壤湿度数据集-SMCI1.0(Soil Moisture of China by in situ data, version 1.0),SMCI1.0是包含2000-2022年、日尺度、以10厘米为间隔10层深度(10-100cm)的高时空分辨率土壤湿度,数据单位为0.001m³/m³,缺失值为-999,投影为WGS1984。该数据集是以中国气象局提供的1,648个站点观测10层土壤湿度作为基准,使用ERA5_Land气象强迫数据、叶面积指数(LAI)、土地覆盖类型(Landtypes)、地形(DEM)和土壤特性(Soil properties)作为协变量,通过机器学习方式获得。本研究进行了两组实验以验证SMCI1.0的精度,时间尺度上:ubRMSE为0.041-0.052,R为0.883-0.919;空间尺度上:ubRMSE为0.045-0.051,R为0.866-0.893。 由于SMCI1.0是基于实地观测的土壤湿度,它可以作为现有基于模型和卫星数据集的有效补充。该数据产品可用于各种水文、气象、生态分析和建模,尤其在需要高质量、高分辨率土壤湿度的应用上至关重要。有关数据集的引用及详细描述,请阅读说明文档。为便于使用,本研究提供了两种不同分辨率的版本:30 秒(~1km)和0.1度(~9km)。
国家青藏高原科学数据中心 收录
MIMII数据集
MIMII数据集是由日立有限公司研究与开发集团创建的,专注于工业机器异常声音检测的数据集。该数据集包含26,092个正常操作条件下的声音文件,涵盖阀门、泵、风扇和滑轨四种机器类型。数据集的创建过程中,使用了TAMAGO-03麦克风阵列进行声音采集,并在多个真实工厂环境中混合背景噪声以模拟实际环境。MIMII数据集主要用于机器学习和信号处理社区开发自动化设施维护系统,特别是在无监督学习场景下检测机器异常声音。
arXiv 收录