Kubernetes Dataset

github2024-04-08 更新2024-05-31 收录

下载链接：

https://github.com/yigitsever/kubernetes-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含从.pcap文件生成的流量文件，用于Kubernetes的滥用检测。数据集详细描述了多种攻击场景及其标签，如CVE漏洞和Node-RED攻击等。

This dataset contains traffic files generated from .pcap files, and is designed for abuse detection in Kubernetes. It comprehensively details various attack scenarios and their corresponding labels, including but not limited to CVE vulnerabilities and Node-RED attacks.

创建时间：

2023-06-03

原始信息汇总

Kubernetes Dataset 概述

数据集来源

数据集由 .pcap 文件生成，使用 GintsEngelen/CICFlowMeter 工具处理。
数据集与论文 A Kubernetes dataset for misuse detection 相关联。

数据集内容

数据集包含多种攻击场景及其标签：

场景	标签
Benign	0
CVE‑2020‑13379	1
Node-RED Reconnaissance	2
Node-RED RCE	3
Node-RED Container Escape	4
CVE‑2021‑43798	5
CVE‑2019‑20933	6
CVE‑2021‑30465	7
CVE‑2021‑25741	8
CVE‑2022‑23648	9
CVE‑2019‑5736	10

引用信息

若用于学术研究，请引用以下论文： bibtex @article{severKubernetes2023, title = {A {Kubernetes} dataset for misuse detection}, author = {Sever, Yigit and Dogan, Adnan Harun}, volume = {4}, url = {https://www.itu.int/pub/S-JNL-VOL4.ISSUE2-2023-A26}, doi = {https://doi.org/10.52953/FPLR8631}, number = {2}, journal = {ITU Journal on Future and Evolving Technologies}, month = jun, year = {2023}, pages = {383--388}, }

搜集汇总

数据集介绍

构建方式

Kubernetes数据集的构建基于对原始`.pcap`文件的处理，通过使用[CICFlowMeter工具的分支版本](https://github.com/GintsEngelen/CICFlowMeter)生成流量文件。该数据集的创建步骤和攻击场景的详细信息在《A Kubernetes dataset for misuse detection》一文中进行了详细阐述。数据集涵盖了多种攻击场景，包括已知的CVE漏洞和特定容器环境中的攻击行为，如Node-RED的侦察、远程代码执行和容器逃逸等。

特点

该数据集的显著特点在于其多样性和针对性，涵盖了从良性流量到多种已知漏洞攻击的广泛场景。每个场景都被赋予了唯一的标签，便于分类和识别。此外，数据集的更新版本已在Kaggle平台上发布，进一步提升了其可访问性和应用范围。

使用方法

该数据集主要用于学术研究，特别是在Kubernetes环境中的误用检测领域。研究者可以通过分析流量文件，识别和分类不同的攻击场景，从而开发和验证新的安全检测算法。使用该数据集时，建议引用《A Kubernetes dataset for misuse detection》一文，以确保学术研究的规范性和透明度。

背景与挑战

背景概述

Kubernetes数据集是由Sever和Dogan于2023年创建的，旨在支持容器环境中的误用检测研究。该数据集通过使用CICFlowMeter工具从.pcap文件生成的流量文件构建，涵盖了多种攻击场景，包括已知的CVE漏洞和特定容器环境中的攻击行为。其核心研究问题聚焦于如何在Kubernetes环境中有效识别和分类各种误用行为，为容器安全领域的研究提供了宝贵的资源。该数据集的发布不仅丰富了容器安全领域的研究素材，还为相关领域的学者和从业者提供了重要的实验基础。

当前挑战

Kubernetes数据集在构建过程中面临多项挑战。首先，数据集的生成依赖于复杂的流量分析工具，如何确保流量数据的准确性和完整性是一个关键问题。其次，数据集中涵盖的攻击场景多样且复杂，如何有效分类和标注这些攻击行为以供后续研究使用，也是一个技术难题。此外，随着容器技术的快速发展，如何保持数据集的时效性和前瞻性，以应对新兴的安全威胁，是该数据集面临的长期挑战。

常用场景

经典使用场景

Kubernetes数据集的经典使用场景主要集中在容器环境中的误用检测。该数据集通过捕获和分析Kubernetes集群中的网络流量，提供了多种攻击场景的标签化数据，如CVE‑2020‑13379、Node-RED Reconnaissance等。研究者可以利用这些数据训练机器学习模型，以识别和分类不同类型的攻击行为，从而增强容器环境的安全性。

衍生相关工作

基于Kubernetes数据集，已衍生出多项经典工作，包括针对特定CVE漏洞的深入分析、基于机器学习的误用检测模型优化等。这些研究不仅扩展了数据集的应用范围，还为容器安全领域提供了新的研究视角和方法。例如，有研究者利用该数据集开发了高效的异常检测算法，显著提升了容器环境的安全性能。

数据集最近研究