VulZoo
收藏VulZoo 数据集概述
简介
VulZoo 是一个大规模的漏洞情报数据集,整合了多种结构化和非结构化数据源。该数据集旨在供安全研究人员、渗透测试人员和安全分析师使用,以全面了解漏洞及其相关数据。
数据集分为两部分:
raw-data/:包含来自不同来源的原始数据。processed/:包含从原始数据提取或转换后的处理数据。
VulZoo 旨在为下游任务提供最全面的漏洞画像,例如漏洞检测、评估、优先级排序、利用和缓解。
数据管理
前提条件
- Python 3.6+
- 磁盘空间:25GB+
VulZoo 由基于 git 和非基于 git 的数据源组成。基于 git 的数据源来自上游仓库,并以 git 子模块的形式组织在此仓库中。非基于 git 的数据源是通过爬取并维护在此仓库中的。
快速开始
如果现有的 VulZoo 数据满足您的需求,可以直接克隆仓库:
bash git clone https://github.com/NUS-Curiosity/VulZoo
数据集位于 processed/ 目录中。如果需要最新的数据,请按照以下数据管理流程操作。
数据同步
- 克隆仓库并初始化子模块:
bash git clone --recurse-submodules https://github.com/NUS-Curiosity/VulZoo
- 安装所需的 Python 包:
bash pip install -r requirements.txt
- 运行
sync-raw-data.sh脚本以增量更新本地原始数据:
bash ./sync-raw-data.sh
- 运行
sync-processed.sh脚本以处理原始数据并同步最新的处理数据:
bash ./sync-processed.sh
额外提示
- 可以运行
print-statistics.py脚本获取处理数据的统计信息。 attackerkb-database的更新需要 AttackerKB 提供的 API 密钥,请通过环境变量设置并手动运行sync-attackerkb.py脚本。- CPE 字典过大,无法上传到 GitHub,请在本地运行
sync-cpe.sh脚本。
数据来源
结构化数据
- CVE (Common Vulnerabilities and Exposures)
- NVD (National Vulnerability Database)
- CWE (Common Weakness Enumeration)
- CAPEC (Common Attack Pattern Enumeration and Classification)
- CISA KEV (Known Exploited Vulnerabilities)
- ZDI Advisory
- GitHub Advisory
- MITRE ATT&CK
- MITRE D3FEND
- AttackerKB
非结构化数据
- Exploit-DB
- oss-security mailing list
- full-disclosure mailing list
- bugtraq mailing list
- GitHub
- git.kernel.org
混合数据
- Linux Kernel Vulns
引用
如果使用此数据集,请引用 VulZoo 论文:
@article{ruan2024vulzoo, title={VulZoo: A Comprehensive Vulnerability Intelligence Dataset}, author={Bonan Ruan and Jiahao Liu and Weibo Zhao and Zhenkai Liang}, year={2024}, eprint={2406.16347}, eprinttype={arXiv} }

- 1VulZoo: A Comprehensive Vulnerability Intelligence Dataset新加坡国立大学 · 2024年



