PEVuln

github2024-07-09 更新2024-07-10 收录

下载链接：

https://github.com/nross12/PEVuln

下载链接

链接失效反馈

官方服务：

资源简介：

PEVuln：一个用于使用机器学习检测PE恶意软件漏洞的基准数据集。

PEVuln: A benchmark dataset for machine learning-based detection of PE malware vulnerabilities.

创建时间：

2024-07-05

原始信息汇总

PEVuln

搜集汇总

数据集介绍

构建方式

PEVuln数据集的构建基于两个核心数据库：Malvuln和ExploitDB。通过整合这两个数据库中的漏洞信息，研究人员精心筛选并构建了一个包含684个易受攻击的恶意软件样本、35,241个非易受攻击的恶意软件样本、1,425个易受攻击的良性样本以及7,905个非易受攻击的良性样本的综合数据集。此数据集的构建旨在为机器学习算法提供丰富的训练和测试材料，以期在恶意软件检测领域取得突破性进展。

特点

PEVuln数据集的显著特点在于其样本的多样性和规模。该数据集不仅涵盖了大量的恶意软件样本，还包含了相应的良性样本，从而为研究者提供了全面的对比分析基础。此外，数据集的定期更新机制确保了其时效性和前沿性，使其成为恶意软件漏洞检测研究中的宝贵资源。

使用方法

使用PEVuln数据集时，用户需先安装Git Large File Storage (LFS)以支持大文件的管理和下载。通过执行`git clone <repo>`命令，用户可以顺利获取数据集的所有文件。为确保研究的准确性和可重复性，建议在使用该数据集进行项目或发表论文时，引用相关文献以提供必要的背景和参考。

背景与挑战

背景概述

PEVuln数据集由Nathan Ross、Oluwafemi Olukoya、Jesus Martinez-del-Rincon和Domhnall Carlin等研究人员创建，旨在通过整合Malvuln和ExploitDB数据库，推动可利用恶意软件的研究。该数据集包含了684个易受攻击的恶意软件样本、35,241个非易受攻击的恶意软件样本、1,425个易受攻击的良性样本以及7,905个非易受攻击的良性样本。PEVuln的构建不仅为机器学习在检测PE恶意软件中的漏洞提供了基准，还计划随着Malvuln和ExploitDB的更新而定期更新，以持续扩展样本规模，助力AI技术的发展。

当前挑战

PEVuln数据集在构建过程中面临多项挑战。首先，整合来自Malvuln和ExploitDB的多样化数据源需要精确的数据清洗和匹配技术，以确保数据的一致性和可用性。其次，随着恶意软件和软件漏洞的不断演变，数据集的实时更新成为一项持续的挑战，要求研究人员具备快速响应和高效处理的能力。此外，如何确保数据集在不同AI模型中的适用性和性能，也是该数据集未来发展中需要解决的关键问题。

常用场景

经典使用场景

在信息安全领域，PEVuln数据集被广泛应用于机器学习模型训练，以检测和分类可利用的恶意软件漏洞。通过整合Malvuln和ExploitDB的数据，该数据集提供了丰富的样本，涵盖了684个易受攻击的恶意软件样本、35,241个非易受攻击的恶意软件样本、1,425个易受攻击的良性样本以及7,905个非易受攻击的良性样本。这些样本为研究人员提供了宝贵的资源，用于开发和验证能够识别和防御恶意软件漏洞的算法。

解决学术问题

PEVuln数据集解决了在恶意软件分析领域中，如何有效利用机器学习技术检测可利用漏洞的学术难题。通过提供大量标注的恶意软件和良性软件样本，该数据集为研究人员提供了一个标准化的基准，用于评估和比较不同的机器学习模型。这不仅推动了相关算法的发展，还为学术界提供了一个共享和协作的平台，促进了恶意软件检测技术的进步。

衍生相关工作

基于PEVuln数据集，许多相关研究工作得以展开，推动了恶意软件检测技术的发展。例如，一些研究团队利用该数据集开发了新的深度学习模型，显著提高了漏洞检测的准确率。此外，还有研究者基于PEVuln数据集进行了跨平台恶意软件分析，探索了不同操作系统环境下恶意软件的行为特征。这些衍生工作不仅丰富了恶意软件分析的理论基础，也为实际应用提供了有力的技术支持。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集