five

PEVuln

收藏
github2024-07-09 更新2024-07-10 收录
下载链接:
https://github.com/nross12/PEVuln
下载链接
链接失效反馈
官方服务:
资源简介:
PEVuln:一个用于使用机器学习检测PE恶意软件漏洞的基准数据集。

PEVuln: A benchmark dataset for machine learning-based detection of PE malware vulnerabilities.
创建时间:
2024-07-05
原始信息汇总

PEVuln

搜集汇总
数据集介绍
main_image_url
构建方式
PEVuln数据集的构建基于两个核心数据库:Malvuln和ExploitDB。通过整合这两个数据库中的漏洞信息,研究人员精心筛选并构建了一个包含684个易受攻击的恶意软件样本、35,241个非易受攻击的恶意软件样本、1,425个易受攻击的良性样本以及7,905个非易受攻击的良性样本的综合数据集。此数据集的构建旨在为机器学习算法提供丰富的训练和测试材料,以期在恶意软件检测领域取得突破性进展。
特点
PEVuln数据集的显著特点在于其样本的多样性和规模。该数据集不仅涵盖了大量的恶意软件样本,还包含了相应的良性样本,从而为研究者提供了全面的对比分析基础。此外,数据集的定期更新机制确保了其时效性和前沿性,使其成为恶意软件漏洞检测研究中的宝贵资源。
使用方法
使用PEVuln数据集时,用户需先安装Git Large File Storage (LFS)以支持大文件的管理和下载。通过执行`git clone <repo>`命令,用户可以顺利获取数据集的所有文件。为确保研究的准确性和可重复性,建议在使用该数据集进行项目或发表论文时,引用相关文献以提供必要的背景和参考。
背景与挑战
背景概述
PEVuln数据集由Nathan Ross、Oluwafemi Olukoya、Jesus Martinez-del-Rincon和Domhnall Carlin等研究人员创建,旨在通过整合Malvuln和ExploitDB数据库,推动可利用恶意软件的研究。该数据集包含了684个易受攻击的恶意软件样本、35,241个非易受攻击的恶意软件样本、1,425个易受攻击的良性样本以及7,905个非易受攻击的良性样本。PEVuln的构建不仅为机器学习在检测PE恶意软件中的漏洞提供了基准,还计划随着Malvuln和ExploitDB的更新而定期更新,以持续扩展样本规模,助力AI技术的发展。
当前挑战
PEVuln数据集在构建过程中面临多项挑战。首先,整合来自Malvuln和ExploitDB的多样化数据源需要精确的数据清洗和匹配技术,以确保数据的一致性和可用性。其次,随着恶意软件和软件漏洞的不断演变,数据集的实时更新成为一项持续的挑战,要求研究人员具备快速响应和高效处理的能力。此外,如何确保数据集在不同AI模型中的适用性和性能,也是该数据集未来发展中需要解决的关键问题。
常用场景
经典使用场景
在信息安全领域,PEVuln数据集被广泛应用于机器学习模型训练,以检测和分类可利用的恶意软件漏洞。通过整合Malvuln和ExploitDB的数据,该数据集提供了丰富的样本,涵盖了684个易受攻击的恶意软件样本、35,241个非易受攻击的恶意软件样本、1,425个易受攻击的良性样本以及7,905个非易受攻击的良性样本。这些样本为研究人员提供了宝贵的资源,用于开发和验证能够识别和防御恶意软件漏洞的算法。
解决学术问题
PEVuln数据集解决了在恶意软件分析领域中,如何有效利用机器学习技术检测可利用漏洞的学术难题。通过提供大量标注的恶意软件和良性软件样本,该数据集为研究人员提供了一个标准化的基准,用于评估和比较不同的机器学习模型。这不仅推动了相关算法的发展,还为学术界提供了一个共享和协作的平台,促进了恶意软件检测技术的进步。
衍生相关工作
基于PEVuln数据集,许多相关研究工作得以展开,推动了恶意软件检测技术的发展。例如,一些研究团队利用该数据集开发了新的深度学习模型,显著提高了漏洞检测的准确率。此外,还有研究者基于PEVuln数据集进行了跨平台恶意软件分析,探索了不同操作系统环境下恶意软件的行为特征。这些衍生工作不仅丰富了恶意软件分析的理论基础,也为实际应用提供了有力的技术支持。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作