AIT-LDSv2.0

Name: AIT-LDSv2.0
Creator: 奥地利技术研究院
Published: 2022-03-16 20:14:36
License: 暂无描述

arXiv2022-03-16 更新2024-06-21 收录

下载链接：

https://zenodo.org/record/5789063

下载链接

链接失效反馈

官方服务：

资源简介：

AIT-LDSv2.0是由奥地利技术研究院创建的一组可维护的日志数据集，用于评估入侵检测系统。这些数据集是通过一个模拟小型企业网络的测试床生成的，其中包含了20种不同的日志文件类型，共标记了8种文件用于10个独特的攻击步骤。数据集的生成过程中，使用了广泛的有限状态机来模拟正常用户行为并注入多步骤攻击。为了实现测试床的可扩展部署，采用了模型驱动工程的概念，使得能够自动生成和标记任意数量的数据集，这些数据集包含了攻击执行的重复和参数变化。AIT-LDSv2.0数据集及其测试床设置和模拟代码已作为开源发布，以便研究者能够重现和扩展研究结果。数据集的应用领域主要集中在网络安全领域，旨在解决入侵检测系统的评估和比较问题，特别是在检测准确性方面。

AIT-LDSv2.0 is a suite of maintainable log datasets created by the Austrian Institute of Technology for evaluating intrusion detection systems. These datasets are generated from a testbed that simulates a small enterprise network, containing 20 distinct log file types, with 8 files labeled for 10 unique attack steps. During the dataset generation process, extensive finite state machines are employed to simulate normal user behaviors and inject multi-step attacks. To enable scalable deployment of the testbed, the concept of model-driven engineering is adopted, allowing automatic generation and labeling of arbitrary volumes of datasets that include repeated attack executions and parameter variations. The AIT-LDSv2.0 dataset, together with its testbed setup and simulation code, has been released as open-source, enabling researchers to reproduce and extend research findings. The dataset is primarily applied in the field of cybersecurity, aiming to address the evaluation and comparison of intrusion detection systems, particularly in terms of detection accuracy.

提供机构：

奥地利技术研究院

创建时间：

2022-03-16

搜集汇总

数据集介绍

构建方式

在网络安全研究领域，构建高质量的入侵检测数据集面临诸多挑战。AIT-LDSv2.0数据集采用模型驱动的测试平台生成方法，通过定义基础设施、用户行为和攻击执行的高层抽象模型，利用转换引擎动态填充参数空间，自动实例化多个异构测试环境。该方法基于状态机模拟企业员工的正常网络活动，并注入涵盖侦察、漏洞利用、权限提升和数据外泄的多步骤攻击链，最终通过自动化标注框架，结合从各主机收集的事实信息，为日志事件生成精确的层次化攻击标签。

特点

该数据集的核心特征在于其通过参数化模型实现了攻击执行的多样性与可重复性。数据集包含八个独立生成的测试环境日志，每个环境在网络规模、用户角色、工作时间和攻击参数上均存在系统性的随机变异，从而确保了评估结果的稳健性。日志类型覆盖广泛，包括系统访问日志、认证日志、审计日志、DNS日志、网络流量以及应用日志等20种文件，其中8种文件包含针对10个独特攻击步骤的精确标注。这种设计不仅支持基于签名的检测方法评估，更对需要学习正常行为基线的异常检测算法构成了有效挑战。

使用方法

该数据集主要应用于入侵检测系统的评估与比较研究。使用者可直接利用其提供的原始日志文件和标注信息，计算不同检测算法的准确率、误报率等指标。由于数据集包含多次变异的攻击执行，特别适合用于评估攻击分类算法的泛化能力以及告警聚合技术的有效性。此外，其公开的测试平台部署与仿真代码支持完全复现，研究者可据此扩展网络场景、调整攻击向量或增加日志类型，以定制符合特定评估需求的新数据集。数据集也可用于用户行为画像等非攻击检测场景的研究。

背景与挑战

背景概述

AIT-LDSv2.0数据集由奥地利技术研究所与维也纳理工大学的研究团队于2022年联合发布，旨在解决入侵检测系统评估中高质量标注日志数据稀缺的核心问题。该数据集通过模型驱动工程方法，在模拟中小型企业网络环境的测试平台上生成，集成了复杂的状态机模拟正常用户行为，并注入了涵盖侦察、漏洞利用、权限提升和数据外泄的多步骤攻击链。其创新性在于实现了测试环境的参数化动态生成与自动化标注，为入侵检测算法的鲁棒性评估提供了可重复、可扩展的基准数据，显著推动了网络安全领域评估方法的标准化进程。

当前挑战

该数据集致力于应对入侵检测领域的两大核心挑战：一是解决真实环境中攻击行为标注困难、数据隐私受限导致的评估可复现性不足问题；二是克服传统静态测试平台难以生成多样化攻击变体与复杂用户行为模式的局限性。在构建过程中，研究团队面临多重技术挑战：需设计高保真的用户行为状态机以模拟真实员工操作模式，确保生成日志的统计特征与真实数据分布一致；同时需开发自动化标注框架，通过动态规则引擎精准识别多步骤攻击在异构日志源中的分散痕迹，并处理网络规模、攻击参数随机化带来的标注一致性难题。

常用场景

经典使用场景

在网络安全研究领域，AIT-LDSv2.0数据集主要用于入侵检测系统的评估与比较。该数据集通过模拟小型企业网络环境，生成了包含正常用户行为和多步骤攻击的日志数据，为研究者提供了可控且可重复的实验平台。其经典应用场景在于支持基于签名和基于异常的检测算法验证，特别是在评估系统对复杂攻击链的识别能力方面具有显著价值。

实际应用

在实际应用层面，AIT-LDSv2.0数据集被广泛用于企业安全产品的原型验证与性能测试。安全厂商可基于该数据集模拟真实网络攻击场景，优化检测引擎的规则库与机器学习模型。同时，该数据集支持安全运营中心（SOC）的告警聚合算法评估，帮助提升安全分析师处理海量告警的效率，并为用户行为分析工具提供角色化行为模式的训练数据。

衍生相关工作

该数据集衍生出多项经典研究工作，包括基于联邦学习的分布式入侵检测框架、结合序列挖掘与时间序列分析的异常检测模型，以及针对多步骤攻击的告警关联算法。例如，研究者利用其变体攻击参数生成了对抗性样本，推动了检测模型鲁棒性研究；其分层标签体系也为攻击分类与溯源研究提供了结构化数据支撑，促进了ATT&CK框架在实际检测场景中的落地应用。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集