CSIC 2010 Dataset|网络安全数据集|入侵检测数据集
收藏Web Application Attack Detection Using Machine Learning Models
数据集概述
来源
本项目使用的数据集是CSIC 2010 Dataset,这是一个包含正常和恶意HTTP请求日志的综合集合。该数据集旨在用于网络入侵检测研究,包括多种攻击类型,如SQL注入、缓冲区溢出和目录遍历。
数据集详情
- 总记录数: 61,065
- 列数: 17
- Method: HTTP请求方法(例如,GET,POST)。
- User-Agent: 发起请求的客户端详情。
- Pragma & Cache-Control: 缓存指令。
- Accept, Accept-Encoding, Accept-Charset: 客户端接受的内容类型、编码和字符集。
- Language: 语言偏好。
- Host: 服务器的主机名。
- Cookie: 随请求发送的Cookie。
- Content-Type: 请求正文的媒体类型。
- Connection: 指示连接是否应保持打开状态。
- Length & Content: 请求或响应正文的长度和内容。
- Classification: 指示请求是正常还是异常。
- URL: 请求的URL。
数据预处理
鉴于数据集的性质,特别是URL字段,需要进行大量的预处理,包括仔细解析和标记化,以确保可以提取用于模型训练的相关特征。
机器学习模型
以下机器学习模型被开发和评估用于检测网络应用攻击:
-
随机森林
- 一种集成学习方法,构建多个决策树并合并它们以获得更准确和稳定的预测。
-
K-最近邻(KNN)
- 一种简单的基于实例的学习算法,根据最近邻的大多数类别对数据点进行分类。
-
决策树
- 一种基于数据集特征值进行决策的模型,组织成树结构。
-
梯度下降
- 一种优化算法,用于通过迭代调整参数来最小化模型的损失函数。
-
人工神经网络(ANN)
- 一种深度学习模型,模仿人脑处理信息的方式,由多层互连的神经元组成。
-
多层感知器分类器(MLPC)
- 一种专门设计用于分类任务的ANN,能够捕捉数据中的复杂模式。
项目工作流程
-
数据预处理:
- URL处理:解析和标记化URL字段。
- 特征编码:通过独热编码和标签编码处理分类数据。
- 数据归一化:将特征缩放到统一范围。
-
探索性数据分析(EDA):
- 特征分布的可视化。
- 相关性分析,以识别特征与目标变量之间的显著关系。
-
模型训练与评估:
- 使用交叉验证技术在处理后的数据集上训练模型。
- 使用准确性、精确度、召回率、F1分数和ROC-AUC等性能指标评估每个模型的有效性。
-
模型比较:
- 基于性能指标对模型进行全面比较。
- 洞察哪些模型在检测不同类型的攻击时表现最佳。
结果
- 随机森林: 实现了高准确性,并且在所有类别中表现平衡。
- KNN: 提供了良好的结果,但对k的选择敏感且计算成本高。
- 决策树: 简单且可解释,具有不错的准确性但容易过拟合。
- 梯度下降: 有效的优化,特别是在与其他模型结合时。
- ANN & MLPC: 展示了深度学习模型捕捉复杂模式的潜力,在许多场景中优于经典模型。
结论
该项目成功展示了各种机器学习模型在检测网络应用攻击中的应用。虽然传统的随机森林和决策树模型提供了坚实的基准,但深度学习方法如ANN和MLPC在处理HTTP日志等复杂、高维数据时提供了增强的性能。
未来工作
- 超参数调优: 通过更广泛的超参数调优进一步优化模型。
- 集成方法: 结合多个模型创建一个更强大的检测系统。
- 实时部署: 在实时网络安全环境中实施性能最佳的模型,进行持续监控和威胁检测。

中国交通事故深度调查(CIDAS)数据集
交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息,以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例,单个案例信息包含人、车 、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征,探索事故预防和损伤防护措施的关键数据源,为制定汽车安全法规和标准、完善汽车测评试验规程、
北方大数据交易中心 收录
中国农村金融统计数据
该数据集包含了中国农村金融的统计信息,涵盖了农村金融机构的数量、贷款余额、存款余额、金融服务覆盖率等关键指标。数据按年度和地区分类,提供了详细的农村金融发展状况。
www.pbc.gov.cn 收录
中国陆域及周边逐日1km全天候地表温度数据集(TRIMS LST;2000-2023)
地表温度(Land surface temperature, LST)是地球表面与大气之间界面的重要参量之一。它既是地表与大气能量交互作用的直接体现,又对于地气过程具有复杂的反馈作用。因此,地表温度不仅是气候变化的敏感指示因子和掌握气候变化规律的重要前提,还是众多模型的直接输入参数,在许多领域有广泛的应用,如气象气候、环境生态、水文等。伴随地学及相关领域研究的深入和精细化,学术界对卫星遥感的全天候地表温度(All-weather LST)具有迫切的需求。 本数据集的制备方法是增强型的卫星热红外遥感-再分析数据集成方法。方法的主要输入数据为Terra/Aqua MODIS LST产品和GLDAS等数据,辅助数据包括卫星遥感提供的植被指数、地表反照率等。方法充分利用了卫星热红外遥感和再分析数据提供的地表温度高频分量、低频分量以及地表温度的空间相关性,最终重建得到较高质量的全天候地表温度数据集。 评价结果表明,本数据集具有良好的图像质量和精度,不仅在空间上无缝,还与当前学术界广泛采用的逐日1 km Terra/Aqua MODIS LST产品在幅值和空间分布上具有较高的一致性。当以MODIS LST为参考时,该数据集在白天和夜间的平均偏差(MBE)为0.09K和-0.03K,偏差标准差(STD)为1.45K和1.17K。基于19个站点实测数据的检验结果表明,其MBE为-2.26K至1.73K,RMSE为0.80K至3.68K,且在晴空与非晴空条件下无显著区别。 本数据集的时间分辨率为逐日4次,空间分辨率为1km,时间跨度为2000年-2023年;空间范围包括我国陆域的主要区域(包含港澳台地区,暂不包含我国南海诸岛)及周边区域(72°E-135°E,19°N-55°N)。本数据集的缩写名为TRIMS LST(Thermal and Reanalysis Integrating Moderate-resolution Spatial-seamless LST),以便用户使用。需要说明的是,TRIMS LST的空间子集TRIMS LST-TP(中国西部逐日1 km全天候地表温度数据集(TRIMS LST-TP;2000-2023)V2)同步在国家青藏高原科学数据中心发布,以减少相关用户数据下载和处理的工作量。
国家青藏高原科学数据中心 收录
Cultural Dimensions Dataset
该数据集包含了霍夫斯泰德文化维度理论(Hofstede's Cultural Dimensions Theory)的相关数据,涵盖了多个国家和地区的文化维度评分,如权力距离、个人主义与集体主义、男性化与女性化、不确定性规避、长期取向与短期取向等。这些数据有助于研究不同文化背景下的行为模式和价值观。
geerthofstede.com 收录
Fruits-360
一个高质量的水果图像数据集,包含多种水果的图像,如苹果、香蕉、樱桃等,总计42345张图片,分为训练集和验证集,共有64个水果类别。
github 收录