WEB-IDS23
收藏arXiv2025-02-06 更新2025-02-10 收录
下载链接:
https://doi.org/10.26249/FK2/MOCIY8
下载链接
链接失效反馈官方服务:
资源简介:
WEB-IDS23数据集由奥斯纳布吕克大学计算机科学研究所创建,包含超过1200万个样本,具有82个流量级别特征和21个细粒度标签。该数据集通过一个模块化的流量生成器产生,能够模拟多种良性及恶意流量,涵盖了现实场景中常见的网络攻击类型,为网络入侵检测系统的研究与开发提供了丰富的数据资源。
The WEB-IDS23 dataset was developed by the Institute of Computer Science, University of Osnabrück. It comprises over 12 million samples, with 82 traffic-level features and 21 fine-grained labels. Generated via a modular traffic generator, this dataset can simulate a wide range of benign and malicious network traffic, covering common network attack types in real-world scenarios. It thus provides abundant data resources for the research and development of network intrusion detection systems.
提供机构:
奥斯纳布吕克大学计算机科学研究所
创建时间:
2025-02-06
搜集汇总
数据集介绍

构建方式
WEB-IDS23数据集的构建采用了一种模块化的流量生成器,该生成器能够模拟广泛的良性流量和恶意流量。通过整合多种协议、应用随机化技术以引入流量模式的可变性,并能够生成与良性流量相对应的攻击流量,以模拟现实世界场景中的情况。该数据集包含了超过1200万个样本,每个样本具有82个流量级别的特征和21个细粒度的标签,以应对现有数据集在标签粒度和样本量方面的局限性。
使用方法
使用WEB-IDS23数据集时,研究者可以下载并通过osnaData存储库中的数据进行训练和评估。数据集中的每个样本都基于流量生成器的日志进行标注,包含了20个攻击类和一个良性类。在应用数据集时,研究者需注意,某些攻击类型的检测可能需要分析至少两个流量,因为单一流量可能无法揭示攻击特征。
背景与挑战
背景概述
WEB-IDS23数据集的产生,旨在应对基于异常的网络入侵检测系统(NIDS)在准确评估与开发过程中对精细标注、代表性和多样性数据集的需求。该数据集由德国奥斯纳布吕克大学计算机科学研究所的Eric Lanfer、Dominik Brockmann和Nils Aschenbruck等研究人员于2025年创建,以解决现有数据集在攻击样本数量不足、标签过于粗糙以及样本量过小导致过拟合问题等方面的局限性。WEB-IDS23通过一个模块化的流量生成器,模拟了广泛的良性及恶意流量,包含82个流量级别特征和21个细致标签,特别是包含了在其他数据集中常被忽视的多种Web攻击类型,为研究人员提供了一个与现实世界流量模式相符的、能够覆盖多种攻击场景的数据集。
当前挑战
WEB-IDS23数据集在构建过程中面临的主要挑战包括:确保数据集的代表性、多样性和标签的精确性,以避免过拟合问题;同时,由于网络安全领域的快速变化,新攻击机制的不断出现,以及加密技术的应用使得应用层的流量分析变得更加困难,这对创建能够涵盖各种攻击和流量特性的新数据集提出了挑战。此外,数据集的合成性质以及未能包含加密负载或追踪流量之间的关系等局限,也为攻击检测带来了挑战。未来,记录未加密的负载并改进流量追踪机制,将有助于提高某些攻击的检测准确性。
常用场景
经典使用场景
WEB-IDS23数据集旨在为异常基于网络入侵检测系统(NIDS)提供精确标记、代表性和多样化的数据集,以便进行准确的评估和发展。其经典使用场景在于通过模拟真实世界的良性流量和恶意流量,为机器学习模型训练提供支持,从而提高NIDS在检测网络攻击方面的准确性。
解决学术问题
该数据集解决了现有数据集中标签粒度不足、样本量小导致的过拟合问题,并且由于包含了对最新攻击类型的覆盖,有助于研究人员开发出能够应对新威胁的防御机制。WEB-IDS23通过提供细粒度的标签和超过1200万个样本,为学术研究中模型过拟合的调试提供了准确的标签,从而提升了研究的深度和广度。
实际应用
在实际应用中,WEB-IDS23数据集可用于网络安全领域的训练和评估入侵检测模型,帮助安全专家识别和防御网络攻击。由于数据集中包含了多种协议和攻击类型,它能够为网络安全产品提供全面而细致的测试场景,从而加强网络安全防护能力。
数据集最近研究
最新研究方向
WEB-IDS23数据集的构建旨在应对当前网络入侵检测系统在准确评估和开发中所需的高质量、细粒度标签和多样化数据集的缺乏。该数据集通过一个高度模块化和可配置的流量生成器,模拟了广泛的良性流量和恶意流量,涵盖了包括SQL注入、跨站脚本攻击、拒绝服务攻击等多种攻击类型,以及对应的良性操作,以贴近真实世界的流量模式。研究方向的焦点在于通过细粒度的标签和超过1200万个样本的流量特征,为机器学习模型的训练和评估提供支持,以增强模型对各种攻击场景的覆盖,降低过拟合的可能性,推动网络安全领域的发展。
相关研究论文
- 1Technical Report: Generating the WEB-IDS23 Dataset奥斯纳布吕克大学计算机科学研究所 · 2025年
以上内容由遇见数据集搜集并总结生成



