HPC应用分类数据集

Name: HPC应用分类数据集
Creator: 巴塞尔大学
Published: 2024-11-27 21:28:43
License: 暂无描述

arXiv2024-11-27 更新2024-11-29 收录

下载链接：

http://arxiv.org/abs/2411.18327v1

下载链接

链接失效反馈

官方服务：

资源简介：

HPC应用分类数据集是由巴塞尔大学的sciCORE生产集群预装的92个应用类别的5333个不同应用样本组成。该数据集用于评估基于SSDeep模糊哈希的HPC应用分类方法，旨在通过静态代码分析技术提高HPC系统的安全性和资源利用效率。数据集的创建过程包括从预装软件目录中收集可执行文件，并提取其模糊哈希特征。该数据集主要应用于HPC环境中的应用分类和资源管理，旨在解决资源浪费和恶意软件执行等问题。

The HPC application classification dataset comprises 5333 distinct application samples across 92 application categories, sourced from pre-installed software on the production cluster of sciCORE at the University of Basel. This dataset is utilized to evaluate HPC application classification methods based on SSDeep fuzzy hashing, with the goal of enhancing the security and resource utilization efficiency of HPC systems through static code analysis techniques. The dataset creation workflow includes collecting executable files from pre-installed software directories and extracting their fuzzy hashing features. This dataset is primarily applied to application classification and resource management in HPC environments, aiming to address issues such as resource waste and malicious software execution.

提供机构：

巴塞尔大学

创建时间：

2024-11-27

搜集汇总

数据集介绍

构建方式

HPC应用分类数据集的构建基于对预安装应用程序的可执行文件进行静态代码分析。具体而言，研究团队从瑞士巴塞尔大学的生产集群sciCORE中收集了92个应用程序类别的5333个独立应用程序样本。这些样本通过SSDeep模糊哈希技术进行特征提取，包括可执行文件的原始二进制内容、连续可打印字符以及全局函数名。随后，利用随机森林分类器对这些模糊哈希特征进行训练，以实现对应用程序的准确分类。

使用方法

HPC应用分类数据集的使用方法主要包括特征提取、模型训练和应用分类。首先，用户需要使用SSDeep模糊哈希技术从应用程序的可执行文件中提取特征。接着，利用随机森林分类器对提取的特征进行训练，建立分类模型。最后，通过该模型对新的应用程序样本进行分类，识别其所属的应用程序类别或标记为未知。此外，数据集还可用于研究应用程序的行为模式，优化系统资源分配，以及提升HPC系统的安全性和合规性。

背景与挑战

背景概述

HPC应用分类数据集由Thomas Jakobsche和Florina M. Ciorba于2024年在瑞士巴塞尔大学数学与计算机科学系创建。该数据集的核心研究问题是如何在高性能计算（HPC）系统中有效分类应用程序，以防止计算资源的浪费和滥用。通过使用模糊哈希技术，研究人员提出了一种基于相似性保留模糊哈希的应用程序分类方法，该方法能够准确地标记执行在HPC系统上的应用程序，包括未知样本。该研究不仅解决了HPC系统中的安全与合规性挑战，还为资源优化和系统性能提升提供了新的视角。

当前挑战

HPC应用分类数据集面临的挑战主要包括两个方面。首先，现有的应用程序分类方法依赖于作业名称或资源使用情况，这些标识符容易被用户任意更改，导致分类结果不可靠。其次，动态资源使用分类方法虽然有效，但可能引入系统监控的开销，并且在系统噪声或未见过的应用程序输入情况下表现不佳。此外，该数据集在构建过程中还面临应用程序行为因输入或系统噪声变化而导致的资源使用差异问题，以及分类方法仅在应用程序执行完成后才能进行的限制。

常用场景

经典使用场景

在高性能计算（HPC）环境中，HPC应用分类数据集的经典使用场景主要集中在应用执行的静态分析和分类。通过使用模糊哈希技术，该数据集能够对HPC系统中的应用执行文件进行相似性比较，从而准确地对应用进行分类。这种方法特别适用于识别那些由于输入数据或系统噪声变化而表现出不同行为的应用。通过随机森林分类器，该数据集能够有效地对已知和未知的应用样本进行分类，确保资源的有效利用和系统的安全性。

解决学术问题

HPC应用分类数据集解决了高性能计算系统中常见的应用分类问题。传统的分类方法依赖于作业名称或资源使用情况，这些方法往往不可靠或无法捕捉到由于不同输入或系统噪声导致的应用行为变化。该数据集通过引入模糊哈希技术，能够更准确地识别和分类应用，从而提高了资源利用效率和系统安全性。此外，该数据集还为研究者提供了一个评估和优化应用分类方法的平台，推动了相关领域的学术研究进展。

实际应用

在实际应用中，HPC应用分类数据集被广泛用于监控和优化高性能计算系统的资源使用。通过实时分析应用的执行情况，系统管理员可以快速识别和处理那些偏离分配目的或可能存在恶意行为的应用，从而减少资源浪费和提高系统安全性。此外，该数据集还可用于软件使用报告、性能分析和应用特定的系统优化，如CPU频率调整等，进一步提升了HPC系统的整体性能和效率。

数据集最近研究