HTTP traffic dataset

github2024-04-12 更新2024-05-31 收录

下载链接：

https://github.com/pralab/http-traffic-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个用于Boosting ModSecurity with Machine Learning研究的数据集。

本数据集旨在用于研究如何通过机器学习技术提升ModSecurity的增强能力。

创建时间：

2024-03-20

原始信息汇总

HTTP traffic dataset

数据集用途

本数据集用于 "Boosting ModSecurity with Machine Learning".

数据集重建方法

由于GitHub限制文件大小不超过25MB，数据集被分割成多个部分。用户可以通过以下步骤重建完整数据集：

进入legitimates目录： bash :~$ cd legitimates
运行merge.py脚本： bash :~$ python3 merge.py
进入malicious目录： bash :~$ cd malicious
运行merge.py脚本： bash :~$ python3 merge.py

搜集汇总

数据集介绍

构建方式

该数据集，名为HTTP流量数据集，源自于对网络流量进行细致的分类与标注。其构建过程涉及对合法与恶意HTTP流量的分别收集与处理，通过将数据分割为多个小文件，以适应GitHub的文件大小限制。随后，利用提供的`merge.py`脚本，用户可以轻松地将这些分割的数据文件重新合并，恢复完整的原始数据集。

特点

此数据集的显著特点在于其对HTTP流量的精细分类，区分了合法与恶意流量，为网络安全领域的研究提供了丰富的素材。此外，数据集的分割与合并机制，不仅解决了存储限制问题，还增强了数据处理的灵活性，使得研究者能够根据需要自由操作数据。

使用方法

使用该数据集时，用户需先下载包含数据分割文件的文件夹，然后通过运行提供的`merge.py`脚本，将分割的文件合并成完整的数据集。具体操作步骤包括进入相应的文件夹，执行合并脚本。此过程简便易行，确保了数据集的高效利用，为网络安全分析提供了坚实的基础。

背景与挑战

背景概述

HTTP traffic dataset，亦称为ModSec-Learn数据集，是由研究团队在《Boosting ModSecurity with Machine Learning》一文中提出的，旨在通过机器学习技术提升ModSecurity的性能。该数据集的创建时间可追溯至2024年，主要研究人员通过分析和处理大量的HTTP流量数据，构建了一个包含合法与恶意流量的综合数据集。这一数据集的核心研究问题在于如何有效区分和识别网络流量中的异常行为，从而增强网络安全防护能力。其对网络安全领域的贡献在于为机器学习算法在网络流量分析中的应用提供了宝贵的实验数据，推动了相关技术的进一步发展。

当前挑战

HTTP traffic dataset在构建过程中面临诸多挑战。首先，数据集的构建需要处理海量的HTTP流量数据，如何高效地收集、清洗和标注这些数据是一个巨大的技术难题。其次，区分合法与恶意流量本身就是一个复杂的任务，涉及到对多种攻击类型的识别和分类，如SQL注入、跨站脚本攻击等。此外，由于GitHub文件大小限制，数据集被分割成多个部分，用户需要通过特定的脚本进行合并，这也增加了数据集使用的复杂性。总体而言，该数据集的挑战主要集中在数据处理、攻击类型识别以及数据集的实际应用便捷性上。

常用场景

经典使用场景

HTTP流量数据集在网络安全领域中具有广泛的应用，尤其是在检测和防御网络攻击方面。该数据集通过收集和分析合法与恶意HTTP流量，为研究者提供了一个丰富的资源，以训练和验证基于机器学习的入侵检测系统。经典的使用场景包括构建和优化Web应用防火墙（WAF），通过识别异常流量模式来增强系统的安全性。

衍生相关工作

基于HTTP流量数据集，许多相关的经典工作得以展开。例如，研究者们开发了多种基于机器学习的入侵检测模型，这些模型在准确性和效率上都有显著提升。此外，该数据集还促进了跨领域的研究，如结合深度学习技术来进一步提高检测性能。这些衍生工作不仅丰富了网络安全领域的研究内容，也为实际应用提供了强有力的技术支持。

数据集最近研究