CICIDS 2017|网络流量分析数据集|网络安全数据集
收藏数据集概述
数据集信息
- 数据集名称: CICIDS 2017
- 数据内容: 包含各种类型攻击和正常流量的标记网络流量数据。
预处理步骤
-
数据预处理:
- 合并初始CSV文件(280万条记录)。
- 移除缺失值。
- 进行归一化处理。
-
标签编码:
- 编码分类标签。
- 0 = 异常,1 = 良性。
-
特征选择:
- 使用随机森林进行特征重要性分析。
- 从78个特征中选择前20个特征。
-
模型训练:
- 将数据集分为训练集和测试集。
- 构建并训练神经网络模型。
- 应用早停法防止过拟合。
神经网络架构
- 输入层: 接受前20个选定的特征。
- 隐藏层: 两个隐藏层,使用ReLU激活函数和Dropout进行正则化。
- 密集层,64个单元,ReLU激活。
- Dropout层,0.5比率。
- 密集层,32个单元,ReLU激活。
- Dropout层,0.5比率。
- 输出层: 使用Sigmoid激活函数输出二分类的概率得分。
模型训练
- 优化器: Adam
- 损失函数: 二元交叉熵
- 评价指标: 准确率
- 早停法: 监控验证损失,耐心值为5个周期。
模型评估
- 混淆矩阵: 可视化真实标签与预测标签。
- ROC曲线: 分析模型的诊断能力。
- 训练曲线: 绘制训练和验证的损失及准确率随周期的变化。
结果
-
混淆矩阵: 展示了模型正确和错误预测的数量。
- 真阳性: 正确识别的良性流量。
- 真阴性: 正确识别的异常流量。
- 假阳性: 良性流量被错误分类为异常。
- 假阴性: 异常流量被错误分类为良性。
-
ROC曲线: 展示了不同阈值设置下真阳性率和假阳性率的权衡。AUC值为0.99,表明模型性能优秀。
-
训练和验证损失: 显示了模型损失随周期的变化,表明模型学习的效果。
-
训练和验证准确率: 显示了模型准确率随周期的变化,表明模型预测与真实标签的对齐程度。

GAOKAO-Bench
GAOKAO-Bench是由复旦大学计算机科学与技术学院创建的数据集,涵盖了2010至2022年间中国高考的所有科目题目,共计2811题。该数据集包含1781道客观题和1030道主观题,题型多样,包括单选、填空、改错、开放性问题等。数据集通过自动化脚本和人工标注将PDF格式的题目转换为JSON文件,数学公式则转换为LATEX格式。GAOKAO-Bench旨在为大型语言模型提供一个全面且贴近实际应用的评估基准,特别是在解决中国高考相关问题上的表现。
arXiv 收录
Yahoo Finance
Dataset About finance related to stock market
kaggle 收录
中国陆域及周边逐日1km全天候地表温度数据集(TRIMS LST;2000-2023)
地表温度(Land surface temperature, LST)是地球表面与大气之间界面的重要参量之一。它既是地表与大气能量交互作用的直接体现,又对于地气过程具有复杂的反馈作用。因此,地表温度不仅是气候变化的敏感指示因子和掌握气候变化规律的重要前提,还是众多模型的直接输入参数,在许多领域有广泛的应用,如气象气候、环境生态、水文等。伴随地学及相关领域研究的深入和精细化,学术界对卫星遥感的全天候地表温度(All-weather LST)具有迫切的需求。 本数据集的制备方法是增强型的卫星热红外遥感-再分析数据集成方法。方法的主要输入数据为Terra/Aqua MODIS LST产品和GLDAS等数据,辅助数据包括卫星遥感提供的植被指数、地表反照率等。方法充分利用了卫星热红外遥感和再分析数据提供的地表温度高频分量、低频分量以及地表温度的空间相关性,最终重建得到较高质量的全天候地表温度数据集。 评价结果表明,本数据集具有良好的图像质量和精度,不仅在空间上无缝,还与当前学术界广泛采用的逐日1 km Terra/Aqua MODIS LST产品在幅值和空间分布上具有较高的一致性。当以MODIS LST为参考时,该数据集在白天和夜间的平均偏差(MBE)为0.09K和-0.03K,偏差标准差(STD)为1.45K和1.17K。基于19个站点实测数据的检验结果表明,其MBE为-2.26K至1.73K,RMSE为0.80K至3.68K,且在晴空与非晴空条件下无显著区别。 本数据集的时间分辨率为逐日4次,空间分辨率为1km,时间跨度为2000年-2023年;空间范围包括我国陆域的主要区域(包含港澳台地区,暂不包含我国南海诸岛)及周边区域(72°E-135°E,19°N-55°N)。本数据集的缩写名为TRIMS LST(Thermal and Reanalysis Integrating Moderate-resolution Spatial-seamless LST),以便用户使用。需要说明的是,TRIMS LST的空间子集TRIMS LST-TP(中国西部逐日1 km全天候地表温度数据集(TRIMS LST-TP;2000-2023)V2)同步在国家青藏高原科学数据中心发布,以减少相关用户数据下载和处理的工作量。
国家青藏高原科学数据中心 收录
中国空气质量数据集(2014-2020年)
数据集中的空气质量数据类型包括PM2.5, PM10, SO2, NO2, O3, CO, AQI,包含了2014-2020年全国360个城市的逐日空气质量监测数据。监测数据来自中国环境监测总站的全国城市空气质量实时发布平台,每日更新。数据集的原始文件为CSV的文本记录,通过空间化处理生产出Shape格式的空间数据。数据集包括CSV格式和Shape格式两数数据格式。
国家地球系统科学数据中心 收录
Fruits-360
一个高质量的水果图像数据集,包含多种水果的图像,如苹果、香蕉、樱桃等,总计42345张图片,分为训练集和验证集,共有64个水果类别。
github 收录