MP

github2023-12-13 更新2024-05-31 收录

下载链接：

https://github.com/JingHan0724/MP

下载链接

链接失效反馈

官方服务：

资源简介：

为去中心化联邦学习创建的新数据集

A new dataset created for decentralized federated learning

创建时间：

2023-08-31

原始信息汇总

数据集概述

数据集结构

/controller: 包含运行监控脚本的控制脚本。
/monitors: 包含监控脚本，包括RES, KERN, SYS, NET, FLSYS, IO_block, IO_entropy。
/server: 包含数据传输的监听器脚本。
install_source.sh: 安装所有必需依赖的脚本。

监控脚本差异

KERN: 监控HPC和资源使用，由Dr.Huertas和Dr.Feng提供（5秒时间窗口）。
RES: 同样监控HPC和资源使用，由Dr.Huertas和Dr.Feng提供（5秒时间窗口）。
SYS: 监控系统调用，由Dr.Huertas和Dr.Feng提供（10秒时间窗口）。
NET: 监控来自网络的事件（5秒时间窗口）。
IO_block: 监控来自输入/输出的事件（10秒时间窗口）。
IO_entropy: 计算输入/输出的熵（10秒时间窗口）。
FLSYS: 监控来自文件系统的事件（5秒时间窗口）。

恶意软件样本

Botnet: Bashlite
Backdoor: HttpBackdoor, Backdoor, The Tick
Ransomware: Ransomware-PoC
Cryptojacker: Linux.MulDrop.14
Rootkits: Beurk, Bdvl

数据收集

服务器端: 调整监听脚本以使用特定IP地址，并指定数据目录，然后执行数据传输脚本。
客户端端: 调整监控脚本以使用服务器IP地址和端口，然后执行控制脚本。

搜集汇总

数据集介绍

构建方式

MP数据集是为去中心化联邦学习而构建的新型数据集，其构建过程涉及多个监控脚本的部署与数据收集。数据集通过在不同设备上运行监控脚本，实时捕获高性能计算（HPC）资源使用情况、系统调用、网络事件、输入输出事件以及文件系统事件。监控脚本分为KERN、RES、SYS、NET、IO_block、IO_entropy和FLSYS，分别以5秒或10秒的时间窗口进行数据采集。数据收集过程分为服务器端和客户端，服务器端运行监听脚本，客户端（如树莓派）运行控制脚本，确保数据的同步传输与存储。

特点

MP数据集的特点在于其多维度、高频率的数据采集能力，覆盖了从系统资源使用到网络活动的广泛领域。数据集不仅包含高性能计算资源的监控数据，还涵盖了恶意软件样本的检测数据，如僵尸网络、后门程序、勒索软件、加密劫持程序和Rootkit等。这些数据以时间窗口为单位进行采集，确保了数据的时效性和连续性。此外，数据集的构建充分考虑了去中心化联邦学习的需求，能够支持分布式环境下的数据共享与模型训练。

使用方法

MP数据集的使用方法分为安装、配置和数据收集三个步骤。首先，用户需在服务器和客户端设备上安装必要的依赖包，并通过SSH启用远程连接。随后，用户需克隆数据集代码库并运行安装脚本以配置环境。数据收集阶段，服务器端需调整监听脚本以指定IP地址和数据存储目录，客户端则需调整监控脚本以匹配服务器IP地址和端口。最后，通过运行控制脚本启动数据采集过程。数据集的使用文档和安装指南可在GitHub Wiki页面获取，确保用户能够顺利完成数据收集与分析。

背景与挑战

背景概述

MP数据集由Dr. Huertas和Dr. Feng等研究人员于近年创建，旨在为去中心化联邦学习（Decentralized Federated Learning）领域提供新的数据支持。该数据集的核心研究问题集中在高性能计算（HPC）资源使用、系统调用、网络事件以及文件系统事件的监控与分析上。通过提供多维度的时间窗口监控数据，MP数据集为研究分布式系统中的资源分配、系统性能优化以及网络安全问题提供了重要的实验基础。其影响力不仅体现在联邦学习领域，还扩展到了系统监控和恶意软件检测等研究方向。

当前挑战

MP数据集在解决联邦学习中的资源分配和系统性能优化问题时，面临的主要挑战包括如何高效捕捉和整合多源异构数据，以及如何在分布式环境中确保数据的实时性和一致性。此外，构建过程中，研究人员需克服硬件资源限制，特别是在Raspberry Pi等边缘设备上实现高精度监控的复杂性。同时，数据采集过程中还需应对网络延迟、数据丢失以及恶意软件样本的动态变化等问题，这些因素均增加了数据集构建的难度。

常用场景

经典使用场景

MP数据集广泛应用于去中心化联邦学习领域，特别是在高性能计算（HPC）和资源监控方面。通过其内置的多种监控脚本，如KERN、RES、SYS等，研究人员能够实时收集和分析系统调用、网络事件、文件系统活动等数据，从而为去中心化联邦学习算法的优化提供数据支持。

解决学术问题

MP数据集解决了去中心化联邦学习中的关键问题，如资源分配不均、系统性能瓶颈以及数据隐私保护。通过提供详细的系统监控数据，研究人员能够更好地理解分布式计算环境中的资源使用模式，进而设计出更高效的算法，减少计算资源的浪费，并确保数据在传输过程中的安全性。

衍生相关工作

MP数据集衍生了许多经典的研究工作，特别是在去中心化联邦学习和网络安全领域。例如，基于MP数据集的研究提出了多种新型的恶意软件检测算法，这些算法能够更准确地识别复杂的网络攻击。此外，MP数据集还被用于开发高效的资源调度算法，这些算法在云计算和边缘计算环境中得到了广泛应用。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集