VulZoo
收藏VulZoo 数据集概述
简介
VulZoo 是一个大规模的漏洞情报数据集,整合了多种结构化和非结构化数据源。该数据集旨在为安全研究人员、渗透测试人员和安全分析师提供全面的漏洞及其相关数据视图。
数据集分为两部分:
raw-data/:包含来自不同来源的原始数据。processed/:包含从原始数据中提取或转换的已处理数据。
VulZoo 旨在为下游任务提供最全面的漏洞画像,例如漏洞检测、评估、优先级排序、利用和缓解。
数据管理
前提条件
- Python 3.6+
- 磁盘空间:25GB+
VulZoo 包含基于 git 和非基于 git 的数据源。基于 git 的数据源来自上游仓库,并作为 git 子模块组织在此仓库中。非基于 git 的数据源在此仓库中爬取和维护。
快速开始
bash git clone --recurse-submodules https://github.com/NUS-Curiosity/VulZoo
VulZoo 提供了一些有用的脚本来帮助管理数据。建议首先安装所需的 Python 包:
bash pip install -r requirements.txt
可以运行 sync-raw-data.sh 脚本来增量更新本地原始数据:
bash ./sync-raw-data.sh
然后,可以运行 sync-processed.sh 脚本来处理原始数据并同步已处理的最新数据:
bash ./sync-processed.sh
额外说明
- 可以运行
print-statistics.py来获取已处理数据的统计信息。 attackerkb-database的更新需要 AttackerKB 提供的 API 密钥。请通过环境变量设置并手动运行sync-attackerkb.py。- CPE 字典太大,无法上传到 GitHub。请在本地运行
scripts/raw-data和scripts/processed中的sync-cpe.sh脚本。
数据来源
结构化
- CVE (Common Vulnerabilities and Exposures)
- NVD (National Vulnerability Database)
- CWE (Common Weakness Enumeration)
- CAPEC (Common Attack Pattern Enumeration and Classification)
- CISA KEV (Known Exploited Vulnerabilities)
- ZDI Advisory
- GitHub Advisory
- MITRE ATT&CK
- MITRE D3FEND
- AttackerKB
非结构化
- Exploit-DB
- oss-security mailing list
- full-disclosure mailing list
- bugtraq mailing list
- GitHub
- git.kernel.org
混合
- Linux Kernel Vulns
引用
如果使用此数据集,请引用 VulZoo 论文:
@article{ruan2024vulzoo, title={VulZoo: A Comprehensive Vulnerability Intelligence Dataset}, author={Bonan Ruan and Jiahao Liu and Weibo Zhao and Zhenkai Liang}, year={2024}, eprint={2406.16347}, eprinttype={arXiv} }




