jniecko/ebpf-k8s-attack-detection

Name: jniecko/ebpf-k8s-attack-detection
Creator: jniecko
Published: 2026-05-01 10:14:14
License: 暂无描述

Hugging Face2026-05-01 更新2026-05-03 收录

下载链接：

https://hf-mirror.com/datasets/jniecko/ebpf-k8s-attack-detection

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集名为eBPF Kubernetes攻击检测——系统调用聚合研究，主要用于网络安全和异常检测领域。数据集基于在4节点Kubernetes集群（Kubernetes 1.35.4，Proxmox虚拟机，Intel Core i7-8700，32 GB RAM）上运行的Online Boutique微服务应用（11个服务）进行的两次实验运行。通过Tracee 0.24收集了21种内核事件类型的数据，包括系统调用计数和熵等特征。数据集包含两种流量配置文件：季节性负载（20-200虚拟用户）和恒定负载（100虚拟用户）。每种配置下都进行了训练和攻击阶段，共18次攻击实例（6种攻击类型×3次攻击周期）。攻击类型包括加密货币挖矿（xmrig）、反向shell（revshell）、无发行版容器中的反向shell（distroless_revshell）、Kubernetes API滥用（k8sapi）、通过SUID二进制文件提权（suid_escalation）和通过LD_PRELOAD环境变量进行共享库注入（ld_preload）。数据集还提供了详细的特征模式、实验结果和重现步骤。

The dataset is named eBPF Kubernetes Attack Detection — Syscall Aggregation Study and is primarily used in the fields of cybersecurity and anomaly detection. It is based on two experimental runs conducted on a 4-node Kubernetes cluster (Kubernetes 1.35.4, Proxmox VMs, Intel Core i7-8700, 32 GB RAM) running the Online Boutique microservices application (11 services). Kernel events were collected using Tracee 0.24, encompassing 21 event types, including syscall counts and entropy features. The dataset includes two traffic profiles: seasonal load (20-200 virtual users) and flat load (100 virtual users). Each profile consists of training and attack phases, with a total of 18 attack instances (6 attack types × 3 attack cycles). The attack types include cryptominer (xmrig), reverse shell (revshell), reverse shell in a distroless container (distroless_revshell), Kubernetes API abuse (k8sapi), privilege escalation via SUID binary (suid_escalation), and shared library injection via LD_PRELOAD environment variable (ld_preload). The dataset also provides detailed feature schemas, experimental results, and reproduction steps.

提供机构：

jniecko

搜集汇总

数据集介绍

构建方式

该数据集源自一项针对Kubernetes环境下微服务应用安全性的实证研究。研究者在一个包含4个节点的Kubernetes集群上，运行着由11个微服务构成的Online Boutique应用，并利用Tracee 0.24工具采集了21种内核事件。实验设计了两种流量模式：季节性模式（模拟昼夜循环的负载变化）与平坦模式（恒定负载），每种模式均包含5个循环周期，其中前两个周期为无攻击的训练阶段，后三个周期注入攻击。攻击类型涵盖加密货币挖矿、反弹Shell、权限提升等六种典型威胁，每种攻击在每个攻击周期中重复实施。特征数据以5秒为窗口进行聚合，包含系统调用计数、熵值等统计量，并同步记录了攻击日志与负载遥测数据，构成了结构化的表格化分类数据集。

使用方法

数据集的典型使用方式遵循一个标准化的异常检测流程。首先，需将特征数据、负载数据与攻击标签按时间窗口进行关联与对齐，构建训练表。建议使用时间序列分割策略，以无攻击窗口的中位时间为界划分训练集与测试集。随后，采用逐Pod的Z-score归一化方法对特征进行标准化处理，以消除不同服务之间的量纲差异。模型层面推荐使用孤立森林算法，通过设置合理的污染率参数进行无监督异常检测。数据集内置了M1（仅系统调用特征）与M2（系统调用加负载特征）两种模型变体的完整训练与评估代码示例，用户可直接复现论文中的ROC-AUC结果，或将其作为基准以探索更先进的检测方法。

背景与挑战

背景概述

在现代云原生环境中，Kubernetes集群已成为企业部署微服务应用的核心基础设施，但其复杂性和动态性也引入了新的安全攻击面。eBPF（Extended Berkeley Packet Filter）技术凭借其在内核层高效、安全地监控系统调用的能力，为容器安全检测提供了低开销的解决方案。由研究团队于2024年发布的eBPF-K8s-Attack-Detection数据集，基于四节点Kubernetes集群和Tracee工具，针对在线精品店微服务应用，模拟了季节性波动与恒定负载两种流量模式，记录了21种内核事件并注入6类攻击（如门罗币挖矿、反向Shell、Kubernetes API滥用等）。该数据集旨在通过系统调用聚合特征结合隔离森林算法，训练基于异常检测的模型，为云原生环境下的入侵检测研究提供了标准化的基准，填补了兼顾负载动态性与系统调用细粒度分析的数据集空白。

当前挑战

该数据集面临的核心挑战在于云原生环境本身的复杂性与攻击检测的精确实时性之间的平衡。领域问题层面，Kubernetes集群的微服务架构导致攻击事件与正常系统调用高度混淆，例如加密矿工攻击带来的频繁sched_yield调用与高负载下的正常行为难以区分，同时攻击窗口的短时性与低频率（仅占0.4%全局窗口）加大了异常检测的难度。构建过程中，研究团队需应对实验控制与真实性的权衡：静态负载设置（如恒定100虚拟用户）无法反映真实场景的流量波动，而季节性负载模式虽模拟昼夜节律，却引入了周期性正常波动，可能掩盖攻击信号。此外，每pod独立建模的限制（如对distroless容器缺少shell命令的检测）和全局聚合策略的脆弱性（ROC-AUC仅0.720）进一步凸显了构建通用、低误报检测方法的挑战。

常用场景

经典使用场景

该数据集专为基于eBPF的Kubernetes环境下的攻击检测研究而设计，其核心用途在于通过系统调用聚合特征与隔离森林等无监督学习方法，识别容器化微服务应用中的隐蔽恶意行为。数据集涵盖了加密货币挖矿、反弹Shell、特权提升、共享库注入等六类典型攻击场景，并提供了季节性负载与恒定负载两种流量模式下的细粒度特征数据，便于研究者评估检测模型在不同运行条件下的鲁棒性。数据以5秒窗口聚合的系统调用计数、熵值及延迟指标作为特征，为构建轻量级、实时的异常检测基线提供了标准化基准。

解决学术问题

该数据集直面云原生安全中无监督异常检测面临的几个关键挑战：如何在缺乏标注数据时有效捕获未知攻击、如何区分真实攻击与合法流量波动、以及如何实现细粒度到Pod级别的检测。通过引入季节性与平坦两种负载模式，数据集揭示了流量变异对检测性能的显著影响——全局聚合模型在恒定负载下表现最佳（ROC-AUC 0.881），而每Pod模型在动态负载中更具优势（ROC-AUC 0.849）。这一发现推动了学术界对Kubernetes环境下自适应异常检测策略的深入探索，并为对比不同特征工程与模型选择方案提供了统一平台。

实际应用

在实际部署中，该数据集支撑了云原生安全监控系统的自动化攻击告警能力。基于数据集训练的隔离森林模型可直接嵌入Kubernetes集群的边车代理或服务网格中，实现对容器运行时异常系统调用的实时评分与告警。具体而言，数据集中的`ld_preload`与`k8sapi`攻击类型覆盖了供应链攻击与内部威胁等高频安全事件，使企业安全团队能够在DevOps流水线中集成零信任检测机制。此外，数据集提供的延迟指标可用于评估检测系统的实时性要求，帮助平衡检测精度与计算开销。

数据集最近研究