five

VulZoo

收藏
github2024-06-25 更新2024-06-26 收录
下载链接:
https://github.com/NUS-Curiosity/VulZoo
下载链接
链接失效反馈
官方服务:
资源简介:
VulZoo是一个大规模的漏洞情报数据集,整合了多种结构化和非结构化数据源。它旨在供安全研究人员、渗透测试人员和安全分析师使用,以获得漏洞及其相关数据的全面视图。

VulZoo is a large-scale vulnerability intelligence dataset that integrates multiple structured and unstructured data sources. It is designed for security researchers, penetration testers and security analysts to obtain a comprehensive overview of vulnerabilities and their associated data.
创建时间:
2024-06-01
原始信息汇总

VulZoo 数据集概述

简介

VulZoo 是一个大规模的漏洞情报数据集,整合了多种结构化和非结构化数据源。该数据集旨在为安全研究人员、渗透测试人员和安全分析师提供全面的漏洞及其相关数据视图。

数据集分为两部分:

  • raw-data/:包含来自不同来源的原始数据。
  • processed/:包含从原始数据中提取或转换的已处理数据。

VulZoo 旨在为下游任务提供最全面的漏洞画像,例如漏洞检测、评估、优先级排序、利用和缓解。

数据管理

前提条件

  • Python 3.6+
  • 磁盘空间:25GB+

VulZoo 包含基于 git 和非基于 git 的数据源。基于 git 的数据源来自上游仓库,并作为 git 子模块组织在此仓库中。非基于 git 的数据源在此仓库中爬取和维护。

快速开始

bash git clone --recurse-submodules https://github.com/NUS-Curiosity/VulZoo

VulZoo 提供了一些有用的脚本来帮助管理数据。建议首先安装所需的 Python 包:

bash pip install -r requirements.txt

可以运行 sync-raw-data.sh 脚本来增量更新本地原始数据:

bash ./sync-raw-data.sh

然后,可以运行 sync-processed.sh 脚本来处理原始数据并同步已处理的最新数据:

bash ./sync-processed.sh

额外说明

  • 可以运行 print-statistics.py 来获取已处理数据的统计信息。
  • attackerkb-database 的更新需要 AttackerKB 提供的 API 密钥。请通过环境变量设置并手动运行 sync-attackerkb.py
  • CPE 字典太大,无法上传到 GitHub。请在本地运行 scripts/raw-datascripts/processed 中的 sync-cpe.sh 脚本。

数据来源

结构化

  • CVE (Common Vulnerabilities and Exposures)
  • NVD (National Vulnerability Database)
  • CWE (Common Weakness Enumeration)
  • CAPEC (Common Attack Pattern Enumeration and Classification)
  • CISA KEV (Known Exploited Vulnerabilities)
  • ZDI Advisory
  • GitHub Advisory
  • MITRE ATT&CK
  • MITRE D3FEND
  • AttackerKB

非结构化

  • Exploit-DB
  • oss-security mailing list
  • full-disclosure mailing list
  • bugtraq mailing list
  • GitHub
  • git.kernel.org

混合

  • Linux Kernel Vulns

引用

如果使用此数据集,请引用 VulZoo 论文

@article{ruan2024vulzoo, title={VulZoo: A Comprehensive Vulnerability Intelligence Dataset}, author={Bonan Ruan and Jiahao Liu and Weibo Zhao and Zhenkai Liang}, year={2024}, eprint={2406.16347}, eprinttype={arXiv} }

搜集汇总
数据集介绍
main_image_url
构建方式
VulZoo数据集的构建方式体现了其全面性和多样性。该数据集整合了来自多个结构化和非结构化数据源的信息,包括CVE、NVD、CWE、CAPEC、CISA KEV、ZDI Advisory、GitHub Advisory等。这些数据源通过自动化脚本进行定期更新和同步,确保数据的时效性和准确性。数据集分为原始数据和处理后的数据两部分,原始数据存储在`raw-data/`目录中,而处理后的数据则存储在`processed/`目录中。处理过程包括数据提取、转换和整合,旨在为下游任务如漏洞检测、评估和优先级排序提供全面的支持。
特点
VulZoo数据集的特点在于其广泛的数据覆盖和高度整合的信息。该数据集不仅包含了结构化的漏洞信息,如CVE和NVD,还涵盖了非结构化的数据源,如Exploit-DB和多个安全邮件列表。这种多源数据的整合使得VulZoo能够提供一个全面的漏洞情报视图,支持多种安全研究和分析任务。此外,数据集的更新机制确保了数据的实时性,使得研究人员能够及时获取最新的漏洞信息。
使用方法
使用VulZoo数据集的方法相对简单且灵活。用户可以通过克隆GitHub仓库来获取数据集的最新版本,无需递归克隆子模块。对于需要最新数据的用户,可以通过运行提供的脚本如`sync-raw-data.sh`和`sync-processed.sh`来更新本地数据。此外,数据集还提供了统计脚本`print-statistics.py`,帮助用户快速了解数据集的概况。对于特定数据源如AttackerKB,用户需要提供API密钥以获取完整数据。总体而言,VulZoo旨在为安全研究人员提供一个易于使用且功能强大的漏洞情报平台。
背景与挑战
背景概述
VulZoo数据集是由NUS-Curiosity团队创建的一个大规模漏洞情报数据集,旨在整合结构化和非结构化数据,为安全研究人员、渗透测试人员和安全分析师提供全面的漏洞信息。该数据集的构建始于2024年,主要研究人员包括Ruan Bonan、Liu Jiahao、Zhao Weibo和Liang Zhenkai。VulZoo的核心研究问题是如何有效地整合和分析来自多个来源的漏洞数据,以支持下游任务如漏洞检测、评估、优先级排序、利用和缓解。该数据集对网络安全领域具有重要影响力,为研究人员提供了一个全面的漏洞情报平台,有助于提升漏洞管理的效率和准确性。
当前挑战
VulZoo数据集在构建过程中面临多个挑战。首先,整合来自不同来源的结构化和非结构化数据需要复杂的数据处理和转换技术。其次,数据集的更新和维护需要高效的同步机制,以确保数据的实时性和准确性。此外,数据集的规模庞大,对存储和计算资源提出了高要求。最后,数据集的使用需要处理敏感信息和遵守相关法律法规,确保数据的安全性和合规性。这些挑战共同构成了VulZoo数据集在实际应用中的主要障碍。
常用场景
经典使用场景
在网络安全领域,VulZoo数据集的经典使用场景主要体现在漏洞情报的综合分析与评估。该数据集整合了多种结构化和非结构化数据源,为安全研究人员、渗透测试人员和安全分析师提供了一个全面的漏洞视图。通过VulZoo,用户可以进行漏洞检测、评估、优先级排序、利用和缓解等下游任务,从而提升网络安全防护的效率和准确性。
衍生相关工作
基于VulZoo数据集,已经衍生出多项经典工作。例如,有研究团队利用该数据集开发了高效的漏洞检测算法,显著提升了检测的准确性和速度。此外,还有学者基于VulZoo进行了漏洞优先级排序的研究,提出了新的评估模型,为实际的漏洞管理提供了科学依据。这些相关工作不仅丰富了网络安全领域的研究内容,也为实际应用提供了有力支持。
数据集最近研究
最新研究方向
在网络安全领域,VulZoo数据集的最新研究方向主要集中在利用其丰富的漏洞情报数据进行深度分析和预测。研究者们致力于通过机器学习和自然语言处理技术,从数据集中提取有价值的模式和关联,以提升漏洞检测、评估和优先级排序的准确性和效率。此外,该数据集还被用于开发和验证新的漏洞利用和缓解策略,从而为实际的安全防御提供理论支持和技术指导。随着网络攻击手段的不断演变,VulZoo数据集的研究对于理解当前威胁态势和预测未来攻击趋势具有重要意义。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作