HPC应用分类数据集|高性能计算数据集|应用分类数据集

arXiv2024-11-27 更新2024-11-29 收录

高性能计算

应用分类

下载链接：

http://arxiv.org/abs/2411.18327v1

下载链接

链接失效反馈

资源简介：

HPC应用分类数据集是由巴塞尔大学的sciCORE生产集群预装的92个应用类别的5333个不同应用样本组成。该数据集用于评估基于SSDeep模糊哈希的HPC应用分类方法，旨在通过静态代码分析技术提高HPC系统的安全性和资源利用效率。数据集的创建过程包括从预装软件目录中收集可执行文件，并提取其模糊哈希特征。该数据集主要应用于HPC环境中的应用分类和资源管理，旨在解决资源浪费和恶意软件执行等问题。

提供机构：

巴塞尔大学

创建时间：

2024-11-27

AI搜集汇总

数据集介绍

构建方式

HPC应用分类数据集的构建基于对预安装应用程序的可执行文件进行静态代码分析。具体而言，研究团队从瑞士巴塞尔大学的生产集群sciCORE中收集了92个应用程序类别的5333个独立应用程序样本。这些样本通过SSDeep模糊哈希技术进行特征提取，包括可执行文件的原始二进制内容、连续可打印字符以及全局函数名。随后，利用随机森林分类器对这些模糊哈希特征进行训练，以实现对应用程序的准确分类。

使用方法

HPC应用分类数据集的使用方法主要包括特征提取、模型训练和应用分类。首先，用户需要使用SSDeep模糊哈希技术从应用程序的可执行文件中提取特征。接着，利用随机森林分类器对提取的特征进行训练，建立分类模型。最后，通过该模型对新的应用程序样本进行分类，识别其所属的应用程序类别或标记为未知。此外，数据集还可用于研究应用程序的行为模式，优化系统资源分配，以及提升HPC系统的安全性和合规性。

背景与挑战

背景概述

HPC应用分类数据集由Thomas Jakobsche和Florina M. Ciorba于2024年在瑞士巴塞尔大学数学与计算机科学系创建。该数据集的核心研究问题是如何在高性能计算（HPC）系统中有效分类应用程序，以防止计算资源的浪费和滥用。通过使用模糊哈希技术，研究人员提出了一种基于相似性保留模糊哈希的应用程序分类方法，该方法能够准确地标记执行在HPC系统上的应用程序，包括未知样本。该研究不仅解决了HPC系统中的安全与合规性挑战，还为资源优化和系统性能提升提供了新的视角。

当前挑战

HPC应用分类数据集面临的挑战主要包括两个方面。首先，现有的应用程序分类方法依赖于作业名称或资源使用情况，这些标识符容易被用户任意更改，导致分类结果不可靠。其次，动态资源使用分类方法虽然有效，但可能引入系统监控的开销，并且在系统噪声或未见过的应用程序输入情况下表现不佳。此外，该数据集在构建过程中还面临应用程序行为因输入或系统噪声变化而导致的资源使用差异问题，以及分类方法仅在应用程序执行完成后才能进行的限制。

常用场景

经典使用场景

在高性能计算（HPC）环境中，HPC应用分类数据集的经典使用场景主要集中在应用执行的静态分析和分类。通过使用模糊哈希技术，该数据集能够对HPC系统中的应用执行文件进行相似性比较，从而准确地对应用进行分类。这种方法特别适用于识别那些由于输入数据或系统噪声变化而表现出不同行为的应用。通过随机森林分类器，该数据集能够有效地对已知和未知的应用样本进行分类，确保资源的有效利用和系统的安全性。

解决学术问题

HPC应用分类数据集解决了高性能计算系统中常见的应用分类问题。传统的分类方法依赖于作业名称或资源使用情况，这些方法往往不可靠或无法捕捉到由于不同输入或系统噪声导致的应用行为变化。该数据集通过引入模糊哈希技术，能够更准确地识别和分类应用，从而提高了资源利用效率和系统安全性。此外，该数据集还为研究者提供了一个评估和优化应用分类方法的平台，推动了相关领域的学术研究进展。

实际应用

在实际应用中，HPC应用分类数据集被广泛用于监控和优化高性能计算系统的资源使用。通过实时分析应用的执行情况，系统管理员可以快速识别和处理那些偏离分配目的或可能存在恶意行为的应用，从而减少资源浪费和提高系统安全性。此外，该数据集还可用于软件使用报告、性能分析和应用特定的系统优化，如CPU频率调整等，进一步提升了HPC系统的整体性能和效率。

数据集最近研究

相关研究论文

1
Using Malware Detection Techniques for HPC Application Classification巴塞尔大学 · 2024年

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

MedDialog

MedDialog数据集（中文）包含了医生和患者之间的对话（中文）。它有110万个对话和400万个话语。数据还在不断增长，会有更多的对话加入。原始对话来自好大夫网。

github 收录

HazyDet

HazyDet是由解放军工程大学等机构创建的一个大规模数据集，专门用于雾霾场景下的无人机视角物体检测。该数据集包含383,000个真实世界实例，收集自自然雾霾环境和正常场景中人工添加的雾霾效果，以模拟恶劣天气条件。数据集的创建过程结合了深度估计和大气散射模型，确保了数据的真实性和多样性。HazyDet主要应用于无人机在恶劣天气条件下的物体检测，旨在提高无人机在复杂环境中的感知能力。

arXiv 收录

中国1km分辨率逐月降水量数据集（1901-2024）

该数据集为中国逐月降水量数据，空间分辨率为0.0083333°（约1km），时间为1901.1-2024.12。数据格式为NETCDF，即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集，通过Delta空间降尺度方案在中国降尺度生成的。并且，使用496个独立气象观测点数据进行验证，验证结果可信。本数据集包含的地理空间范围是全国主要陆地（包含港澳台地区），不含南海岛礁等区域。为了便于存储，数据均为int16型存于nc文件中，降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理，Matlab发布了读入与存储nc文件的函数，读取函数为ncread，切换到nc文件存储文件夹，语句表达为：ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent])，其中XXX.nc为文件名，为字符串需要’’；var是从XXX.nc中读取的变量名，为字符串需要’’；i、j、t分别为读取数据的起始行、列、时间，leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样，研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令，可查看。数据坐标系统建议使用WGS84。

国家青藏高原科学数据中心收录

鸭绿江流域与水系 – 世界地理数据大百科辞条

鸭绿江流域是指鸭绿江干流和支流汇水区，地理位置为39&deg43′57″N-42&deg17′28″N，123&deg35′59″E-128&deg45′50″E。与其接壤的流域分别是辽河流域（东）、松花江流域（北）、图们江流域（北）、大同江流域（西南）等。鸭绿江流域界线在中国境内从长白山天池火山口的南壁起始，向西南经长白山脉、转向西南至千山山脉的北部，再折向南入海；在朝鲜境内，鸭绿江流域从长白山天池南坡启始向东南经过摩天岭山脉，在头流山（2309 m）转向西南方向的赴战岭山脉，在英雄里附近转向西，经狼林山（2184 m）、广城、松源，转向西南方向的狄逾岭山脉，接江南山脉的南部后至鸭绿江河口。鸭绿江流域面积65215.49 km&sup2，其中，中国境内面积32799.22 km&sup2，朝鲜境内面积32416.27 km&sup2。鸭绿江是中（国）朝（鲜）界河，它起源于长白山天池火山口的南壁，向南经惠山（朝）、折向西经临江（中）、再转向西南直向丹东（中）、新义州（朝），最后在东港（中）和多狮里（朝）附近注入黄海的西朝鲜湾。鸭绿江干流长844.98 km，有几条比较大的支流汇入，包括在朝鲜境内的虛川江、長津江、厚州川、慈城江、禿魯江、忠满江和三桥川；在中国境内的浑江、蒲石河、瑗河等。鸭绿江干流沿中朝国界线自东北向西南流经吉林省的长白朝鲜族自治县、临江市、集安市；辽宁省的桓仁满族自治县、宽甸满族自治县、丹东市和东港市；朝鲜的两江道、慈江道和平安北道。鸭绿江流域地处暖温带湿润季风气候区。年降水量800-1200 mm。流域内多山，最高海拔2745 m，河道比降比较大，达到0.0032，其中在中段可达到0.01。丰富的降水补给和较大的河床比降，使得鸭绿江流域成为亚洲单位面积水资源和水利资源最丰富的流域之一。近80年来，流域内先后建造了水丰水库（中、朝）、渭源水库（中、朝）、铁甲水库（中）、太平哨水库（中）、桓仁水库（中）、回龙山水库（中）、满丰湖水库（朝）、版平里水库（朝）、时中湖水库（朝）、狼林湖水库（朝）、长津湖水库（朝）、赴战湖水库（朝）、丰西湖水库等（朝）。数据文件包括鸭绿江干流、鸭绿江水系和鸭绿江流域地理信息系统数据文件组成。数据集以.kmz 和.shp格式存储，数据量43.8 MB（压缩为20.1 MB）。

国家对地观测科学数据中心收录

TongueDx Dataset

TongueDx数据集是一个专为远程舌诊研究设计的综合性舌象图像数据集，由香港理工大学和新加坡管理大学的研究团队创建。该数据集包含5109张图像，涵盖了多种环境条件下的舌象，图像通过智能手机和笔记本电脑摄像头采集，具有较高的多样性和代表性。数据集不仅包含舌象图像，还提供了详细的舌面属性标注，如舌色、舌苔厚度等，并附有受试者的年龄、性别等人口统计信息。数据集的创建过程包括图像采集、舌象分割、标准化处理和多标签标注，旨在解决远程医疗中舌诊图像质量不一致的问题。该数据集的应用领域主要集中在远程医疗和中医诊断，旨在通过自动化技术提高舌诊的准确性和可靠性。

arXiv 收录