five

MP

收藏
github2023-12-13 更新2024-05-31 收录
下载链接:
https://github.com/JingHan0724/MP
下载链接
链接失效反馈
官方服务:
资源简介:
为去中心化联邦学习创建的新数据集

A new dataset created for decentralized federated learning
创建时间:
2023-08-31
原始信息汇总

数据集概述

数据集结构

  • /controller: 包含运行监控脚本的控制脚本。
  • /monitors: 包含监控脚本,包括RES, KERN, SYS, NET, FLSYS, IO_block, IO_entropy。
  • /server: 包含数据传输的监听器脚本。
  • install_source.sh: 安装所有必需依赖的脚本。

监控脚本差异

  • KERN: 监控HPC和资源使用,由Dr.Huertas和Dr.Feng提供(5秒时间窗口)。
  • RES: 同样监控HPC和资源使用,由Dr.Huertas和Dr.Feng提供(5秒时间窗口)。
  • SYS: 监控系统调用,由Dr.Huertas和Dr.Feng提供(10秒时间窗口)。
  • NET: 监控来自网络的事件(5秒时间窗口)。
  • IO_block: 监控来自输入/输出的事件(10秒时间窗口)。
  • IO_entropy: 计算输入/输出的熵(10秒时间窗口)。
  • FLSYS: 监控来自文件系统的事件(5秒时间窗口)。

恶意软件样本

  • Botnet: Bashlite
  • Backdoor: HttpBackdoor, Backdoor, The Tick
  • Ransomware: Ransomware-PoC
  • Cryptojacker: Linux.MulDrop.14
  • Rootkits: Beurk, Bdvl

数据收集

  • 服务器端: 调整监听脚本以使用特定IP地址,并指定数据目录,然后执行数据传输脚本。
  • 客户端端: 调整监控脚本以使用服务器IP地址和端口,然后执行控制脚本。
搜集汇总
数据集介绍
main_image_url
构建方式
MP数据集是为去中心化联邦学习而构建的新型数据集,其构建过程涉及多个监控脚本的部署与数据收集。数据集通过在不同设备上运行监控脚本,实时捕获高性能计算(HPC)资源使用情况、系统调用、网络事件、输入输出事件以及文件系统事件。监控脚本分为KERN、RES、SYS、NET、IO_block、IO_entropy和FLSYS,分别以5秒或10秒的时间窗口进行数据采集。数据收集过程分为服务器端和客户端,服务器端运行监听脚本,客户端(如树莓派)运行控制脚本,确保数据的同步传输与存储。
特点
MP数据集的特点在于其多维度、高频率的数据采集能力,覆盖了从系统资源使用到网络活动的广泛领域。数据集不仅包含高性能计算资源的监控数据,还涵盖了恶意软件样本的检测数据,如僵尸网络、后门程序、勒索软件、加密劫持程序和Rootkit等。这些数据以时间窗口为单位进行采集,确保了数据的时效性和连续性。此外,数据集的构建充分考虑了去中心化联邦学习的需求,能够支持分布式环境下的数据共享与模型训练。
使用方法
MP数据集的使用方法分为安装、配置和数据收集三个步骤。首先,用户需在服务器和客户端设备上安装必要的依赖包,并通过SSH启用远程连接。随后,用户需克隆数据集代码库并运行安装脚本以配置环境。数据收集阶段,服务器端需调整监听脚本以指定IP地址和数据存储目录,客户端则需调整监控脚本以匹配服务器IP地址和端口。最后,通过运行控制脚本启动数据采集过程。数据集的使用文档和安装指南可在GitHub Wiki页面获取,确保用户能够顺利完成数据收集与分析。
背景与挑战
背景概述
MP数据集由Dr. Huertas和Dr. Feng等研究人员于近年创建,旨在为去中心化联邦学习(Decentralized Federated Learning)领域提供新的数据支持。该数据集的核心研究问题集中在高性能计算(HPC)资源使用、系统调用、网络事件以及文件系统事件的监控与分析上。通过提供多维度的时间窗口监控数据,MP数据集为研究分布式系统中的资源分配、系统性能优化以及网络安全问题提供了重要的实验基础。其影响力不仅体现在联邦学习领域,还扩展到了系统监控和恶意软件检测等研究方向。
当前挑战
MP数据集在解决联邦学习中的资源分配和系统性能优化问题时,面临的主要挑战包括如何高效捕捉和整合多源异构数据,以及如何在分布式环境中确保数据的实时性和一致性。此外,构建过程中,研究人员需克服硬件资源限制,特别是在Raspberry Pi等边缘设备上实现高精度监控的复杂性。同时,数据采集过程中还需应对网络延迟、数据丢失以及恶意软件样本的动态变化等问题,这些因素均增加了数据集构建的难度。
常用场景
经典使用场景
MP数据集广泛应用于去中心化联邦学习领域,特别是在高性能计算(HPC)和资源监控方面。通过其内置的多种监控脚本,如KERN、RES、SYS等,研究人员能够实时收集和分析系统调用、网络事件、文件系统活动等数据,从而为去中心化联邦学习算法的优化提供数据支持。
解决学术问题
MP数据集解决了去中心化联邦学习中的关键问题,如资源分配不均、系统性能瓶颈以及数据隐私保护。通过提供详细的系统监控数据,研究人员能够更好地理解分布式计算环境中的资源使用模式,进而设计出更高效的算法,减少计算资源的浪费,并确保数据在传输过程中的安全性。
衍生相关工作
MP数据集衍生了许多经典的研究工作,特别是在去中心化联邦学习和网络安全领域。例如,基于MP数据集的研究提出了多种新型的恶意软件检测算法,这些算法能够更准确地识别复杂的网络攻击。此外,MP数据集还被用于开发高效的资源调度算法,这些算法在云计算和边缘计算环境中得到了广泛应用。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作