Falco-Alerts-Dataset-with-APT-attacks
收藏github2024-04-04 更新2024-05-31 收录
下载链接:
https://github.com/simabagheri1/Falco-Alerts-Dataset-with-APT-attacks
下载链接
链接失效反馈官方服务:
资源简介:
我们构建了一个相对较大的Falco警报数据集,用于Kubernetes,包含正常和APT攻击数据,以促进攻击预测的预测模型的学习和支持未来的研究。对于攻击警报,我们应用CALDERA,一个由MITRE开发的对手仿真平台,在Kubernetes集群中以MITRE ATT&CK战术序列的形式模拟攻击。对于正常警报,我们利用Falco在没有任何攻击的情况下也会生成日常例行警报的事实。然后,我们将这些警报分别标记为“攻击”或“正常”。我们的数据集包含231K警报,包括2,314个攻击警报和228,686个正常警报。
We have constructed a relatively large dataset of Falco alerts for Kubernetes, encompassing both normal and APT (Advanced Persistent Threat) attack data, to facilitate the learning of predictive models for attack forecasting and to support future research. For the attack alerts, we employed CALDERA, an adversary emulation platform developed by MITRE, to simulate attacks within a Kubernetes cluster in the form of MITRE ATT&CK tactic sequences. For the normal alerts, we leveraged the fact that Falco generates routine alerts even in the absence of any attacks. These alerts were then labeled as either 'attack' or 'normal'. Our dataset comprises 231K alerts, including 2,314 attack alerts and 228,686 normal alerts.
创建时间:
2023-02-20
原始信息汇总
数据集概述
数据集目的
本数据集旨在为Kubernetes环境中的攻击预测和支持未来研究提供一个相对较大的Falco警报数据集,包含正常和高级持续威胁(APT)攻击数据。
数据集内容
- 警报总数:231,000条
- 攻击警报:2,314条
- 正常警报:228,686条
- 攻击模拟:使用CALDERA平台模拟攻击,包括MITRE ATT&CK战术序列。
- 正常警报:利用Falco在无攻击时也会生成日常警报的特性。
数据集处理
- 标签化:警报被标记为“攻击”或“正常”。
- 数据平衡:通过下采样正常警报和上采样攻击警报来平衡数据集。
数据集结构
- 攻击Falco警报配置文件:包含三个模拟攻击的样本Falco警报。
- 收集的警报:
- 原始警报:从测试环境中的11个Pod收集。
- 最终处理和标记的警报:对原始警报进行处理和标记。
- 最终平衡标记的Falco警报文件:经过平衡处理的数据集。
- 模拟攻击的Falco警报:记录了在测试环境中对11个Pod进行的八次模拟攻击的Falco警报。
- MITRE战术序列:格式为{容器ID : MITRE ATT&CK战术},从每个Pod的收集警报中提取。
数据集挑战
- 警报聚合:需要将集群中所有资源的警报聚合以重建攻击步骤。
- 数据不平衡:正常警报数量远高于攻击警报,需通过采样技术进行平衡。
测试环境
- Kubernetes集群:部署在11个VM上,包括一个主节点和十个工作节点。
- 硬件配置:使用一台配备2x Intel Xeon Gold 5120 CPU和128GB DDR4-2933的服务器。
研究应用
- ML预测模型:基于MITRE ATT&CK战术进行预测,未来可能通过NLP方法扩展到技术层面。
搜集汇总
数据集介绍

构建方式
该数据集的构建基于Kubernetes集群中的Falco警报系统,结合了正常操作和高级持续性威胁(APT)攻击的数据。通过使用MITRE开发的CALDERA平台模拟攻击,生成了包含MITRE ATT&CK战术序列的攻击警报。同时,利用Falco在无攻击情况下生成的日常警报作为正常数据。最终,数据集包含231,000条警报,其中2,314条为攻击警报,228,686条为正常警报。数据集的构建过程还包括对警报的自动分组和MITRE ATT&CK战术属性的提取。
特点
该数据集的特点在于其规模较大且涵盖了Kubernetes集群中的正常操作和APT攻击警报。数据集中的攻击警报通过CALDERA平台模拟生成,确保了攻击行为的真实性和多样性。此外,数据集还包含了MITRE ATT&CK战术标签,为攻击预测模型的学习提供了重要信息。然而,数据集存在不平衡问题,正常警报数量远多于攻击警报,因此通过欠采样和过采样技术进行了平衡处理,以提高模型的训练效果。
使用方法
该数据集的使用方法主要包括对Falco警报的收集、处理和标签化。用户可以从原始警报文件夹中获取未经处理的警报数据,或使用已处理和标签化的最终平衡数据集进行模型训练。数据集中的MITRE ATT&CK战术标签可用于构建基于机器学习的攻击预测模型。此外,用户还可以通过自然语言处理(NLP)方法从警报文本中提取更多技术细节,以扩展模型的预测能力。数据集的使用场景主要集中在Kubernetes集群的安全研究和攻击预测领域。
背景与挑战
背景概述
Falco-Alerts-Dataset-with-APT-attacks数据集由Sima Bagheri等研究人员于2023年创建,旨在为Kubernetes集群中的威胁检测和异常行为预测提供支持。该数据集结合了正常操作和高级持续性威胁(APT)攻击的Falco警报数据,共计包含231,000条警报,其中2,314条为攻击警报,228,686条为正常警报。研究人员利用MITRE开发的CALDERA平台模拟了Kubernetes集群中的APT攻击,并通过Falco生成的警报数据提取了MITRE ATT&CK战术标签。该数据集为机器学习模型在攻击预测领域的研究提供了重要基础,并推动了Kubernetes安全领域的发展。
当前挑战
该数据集在构建和应用过程中面临多重挑战。首先,Falco警报通常针对集群中的所有资源生成,研究人员需要通过容器ID对警报进行分组,并从中提取MITRE ATT&CK战术序列,以重构攻击步骤。其次,数据集存在严重的不平衡问题,正常警报数量远高于攻击警报,这可能导致模型在训练过程中偏向于正常类别的预测。为解决这一问题,研究人员采用了欠采样和过采样的方法,以平衡数据集。此外,Falco警报中仅包含MITRE ATT&CK战术标签,若需进一步扩展至技术层面的预测,还需借助自然语言处理技术从警报文本中提取相关信息,这为未来的研究提出了新的方向。
常用场景
经典使用场景
Falco-Alerts-Dataset-with-APT-attacks数据集在容器、Kubernetes和云服务的安全威胁检测领域具有重要应用。该数据集通过模拟高级持续性威胁(APT)攻击,结合MITRE ATT&CK战术序列,为研究人员提供了一个丰富的实验平台。经典使用场景包括利用该数据集训练机器学习模型,以预测和识别Kubernetes集群中的潜在攻击行为,从而提升系统的实时防御能力。
解决学术问题
该数据集解决了容器化环境中安全威胁检测的多个学术研究问题。首先,它通过模拟真实的APT攻击,填补了现有数据集在攻击多样性方面的不足。其次,数据集中的标签化警报数据为研究攻击预测模型提供了高质量的训练和测试数据。此外,数据集的不平衡问题通过采样技术得到缓解,为研究不平衡数据分类问题提供了实际案例。这些贡献显著推动了容器安全领域的研究进展。
衍生相关工作
该数据集衍生了一系列经典研究工作,主要集中在容器安全、攻击预测和MITRE ATT&CK战术分析领域。例如,基于该数据集的研究提出了新的机器学习模型,用于预测Kubernetes集群中的攻击行为。此外,一些研究利用自然语言处理技术,从警报文本中提取MITRE ATT&CK技术信息,进一步扩展了数据集的应用范围。这些工作不仅推动了学术研究的发展,也为实际安全系统的优化提供了理论支持。
以上内容由遇见数据集搜集并总结生成



