five

API calls for malware detection|恶意软件检测数据集|机器学习数据集

收藏
arXiv2025-02-18 更新2025-02-20 收录
恶意软件检测
机器学习
下载链接:
https://zenodo.org/records/11079764
下载链接
链接失效反馈
资源简介:
本研究创建了迄今为止最大的公开可用的API调用数据集,包含超过30万个恶意软件样本和1万个良性软件样本的API调用实例。数据集基于当前恶意软件和良性软件样本,未压缩大小超过550GB,可在Zenodo上获取。该数据集旨在解决当前机器学习模型在恶意软件检测中需要大量数据的需求,同时提供了一种轻量级的恶意软件检测模型,该模型基于API调用,无需考虑调用顺序,具有较高的准确性和可扩展性。
提供机构:
德国帕绍大学, 冰岛雷克雅未克大学
创建时间:
2025-02-18
AI搜集汇总
数据集介绍
main_image_url
构建方式
该数据集的构建方式主要基于对API调用的分析。研究者们与G DATA CyberDefense AG合作,收集了大量恶意软件样本,并从中提取了函数调用参数。这些样本被标注为良性或恶意活动,以确保数据集的多样性。在构建数据集时,研究者们采用了SHA值来唯一标识每个恶意和良性样本,以便于区分不同版本和变种的软件。此外,他们还在一个受控的虚拟环境中执行和监控每个恶意样本,以确保数据的安全性和精确性。最终,他们使用一个开源库模拟互联网连接,并记录了所有API调用,以构建每个样本的详细行为配置文件。
特点
该数据集具有以下特点:首先,它是目前公开可用的最大的API调用数据集之一,包含超过30万个恶意软件样本和1万个良性软件样本。其次,该数据集的构建过程注重多样性和全面性,涵盖了多种恶意软件家族,并包括来自现实世界机器的样本。最后,该数据集的标注方式基于恶意软件家族,而不是简单的类别标签,这有助于更好地分析和研究。
使用方法
使用该数据集的方法包括:首先,将每个函数调用映射到特征向量中的一个特征,其中每个位置代表该特定函数被调用的次数。其次,可以使用不同的模型,如随机森林,来训练和预测恶意软件。最后,研究者们还提供了一个开源的代码库,其中包含了数据集和代码的所有信息,以便于其他研究人员使用。
背景与挑战
背景概述
随着数字化时代的深入发展,恶意软件攻击已成为网络安全领域的一大威胁。传统的恶意软件检测方法往往基于代码特征,但随着多态恶意软件的出现,这些方法逐渐失效。为了应对这一挑战,Fellicious等人提出了一种基于API调用的恶意软件检测方法,该方法不依赖于API调用的顺序,通过分析API调用参数来识别恶意软件。为了支持这一研究,他们创建了一个包含超过30万个样本及其功能调用参数的公开数据集,并使用随机森林等机器学习算法进行行为分析,以识别API调用序列中的模式和异常。该数据集的发布为研究人员提供了宝贵的资源,推动了基于API调用的恶意软件检测技术的发展。
当前挑战
尽管基于API调用的恶意软件检测方法展现出巨大的潜力,但仍面临诸多挑战。首先,现有的公开数据集往往规模较小,缺乏多样性,难以涵盖现代恶意软件的复杂性和快速演变的特点。其次,构建一个大规模、多样化的数据集需要大量的资源和时间,且在数据标注过程中可能存在主观性和不一致性。此外,随着恶意软件的不断进化,检测模型需要不断更新和优化,以适应新的攻击手段和策略。最后,如何在保证检测准确性的同时,降低模型的复杂性和资源消耗,也是当前研究的重要方向。
常用场景
经典使用场景
在恶意软件检测领域,API calls for malware detection数据集被广泛应用于研究和开发高效的恶意软件检测系统。该数据集通过分析应用程序的API调用模式,而不考虑调用的顺序,从而实现轻量级的恶意软件检测。研究人员可以利用机器学习算法,如随机森林,来分析API调用的频率和模式,并从中提取区分良性和恶意活动的特征。这种无序的方法能够帮助早期识别和分类恶意软件家族,从而为网络安全提供有力的支持。
衍生相关工作
API calls for malware detection数据集的发布推动了相关研究的发展。基于该数据集,研究人员提出了多种轻量级的恶意软件检测模型,这些模型能够利用API调用的频率和模式来识别恶意软件。此外,数据集还促进了恶意软件检测方法的研究,如无序API调用分析方法、特征工程技术和轻量级模型设计。这些研究工作为开发高效、可扩展的恶意软件检测系统提供了理论基础和技术支持,推动了网络安全领域的进步。
数据集最近研究
最新研究方向
在当前的网络环境下,恶意软件的威胁日益严重,而检测和识别恶意软件家族成为保护网络安全的关键。近期的研究表明,基于API调用的恶意软件检测方法显示出巨大的潜力。API调用是软件与操作系统交互的重要方式,而恶意软件往往通过API调用与系统进行通信。因此,分析API调用模式可以帮助我们识别和检测恶意软件。本研究探索了一种轻量级、顺序不变的方法来检测和缓解恶意软件威胁,即分析API调用而不考虑它们的顺序。通过研究函数调用的发生情况,无论它们的顺序如何,我们可以识别出区分特征,从而帮助我们早期识别恶意软件。此外,研究还发现,我们只需要对ntdll.dll库的函数调用进行子集分析,就可以可靠地识别恶意软件。这些发现强调了全面数据收集在开发强大的恶意软件检测系统中的重要性,并为网络安全社区提供了一个宝贵的资源。
相关研究论文
  • 1
    Malware Detection based on API calls德国帕绍大学, 冰岛雷克雅未克大学 · 2025年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

URPC系列数据集, S-URPC2019, UDD

URPC系列数据集包括URPC2017至URPC2020DL,主要用于水下目标的检测和分类。S-URPC2019专注于水下环境的特定检测任务。UDD数据集信息未在README中详细描述。

github 收录

学生课堂行为数据集 (SCB-dataset3)

学生课堂行为数据集(SCB-dataset3)由成都东软学院创建,包含5686张图像和45578个标签,重点关注六种行为:举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景,通过YOLOv5、YOLOv7和YOLOv8算法评估,平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础,解决教育领域中学生行为数据集的缺乏问题。

arXiv 收录

红外谱图数据库

收集整理红外谱图实验手册等数据,建成了红外谱图数据库。本数据库收录了常见化合物的红外谱图。主要包括化合物数据和对应的红外谱图数据。其中,原始红外谱图都进行了数字化处理,从而使谱峰检索成为可能。用户可以在数据库中检索指定化合物的谱图,也可以提交谱图/谱峰数据,以检索与之相似的谱图数据,以协助进行谱图鉴定。

国家基础学科公共科学数据中心 收录

CHARLS

中国健康与养老追踪调查(CHARLS)数据集,旨在收集反映中国45岁及以上中老年人家庭和个人的高质量微观数据,用以分析人口老龄化问题,内容包括健康状况、经济状况、家庭结构和社会支持等。

charls.pku.edu.cn 收录

AIS数据集

该研究使用了多个公开的AIS数据集,这些数据集经过过滤、清理和统计分析。数据集涵盖了多种类型的船舶,并提供了关于船舶位置、速度和航向的关键信息。数据集包括来自19,185艘船舶的AIS消息,总计约6.4亿条记录。

github 收录