five

VulZoo

收藏
arXiv2024-06-24 更新2024-06-26 收录
下载链接:
https://github.com/NUS-Curiosity/VulZoo
下载链接
链接失效反馈
官方服务:
资源简介:
VulZoo是由新加坡国立大学创建的综合性漏洞情报数据集,涵盖了17个不同的漏洞信息源,总数据量约6GB。该数据集包含604,943条CVE记录,以及大量的评估指标、邮件、PoC和补丁数据。创建过程中,研究团队采用了多种数据采集和处理技术,确保数据的质量和可用性。VulZoo旨在支持漏洞评估和优先级排序研究,通过提供全面和结构化的漏洞数据,帮助研究人员和开发者更有效地应对网络安全挑战。

VulZoo is a comprehensive vulnerability intelligence dataset created by the National University of Singapore. It covers 17 distinct vulnerability information sources, with a total data volume of approximately 6 GB. The dataset contains 604,943 CVE records, as well as a large number of evaluation metrics, emails, PoC and patch data. During its development, the research team adopted multiple data collection and processing technologies to ensure the quality and availability of the dataset. VulZoo aims to support research on vulnerability assessment and prioritization, providing comprehensive and structured vulnerability data to help researchers and developers more effectively address cybersecurity challenges.
提供机构:
新加坡国立大学
创建时间:
2024-06-24
原始信息汇总

VulZoo 数据集概述

简介

VulZoo 是一个大规模的漏洞情报数据集,整合了多种结构化和非结构化数据源。该数据集旨在供安全研究人员、渗透测试人员和安全分析师使用,以全面了解漏洞及其相关数据。

数据集分为两部分:

  • raw-data/:包含来自不同来源的原始数据。
  • processed/:包含从原始数据提取或转换后的处理数据。

VulZoo 旨在为下游任务提供最全面的漏洞画像,例如漏洞检测、评估、优先级排序、利用和缓解。

数据管理

前提条件

  • Python 3.6+
  • 磁盘空间:25GB+

VulZoo 由基于 git 和非基于 git 的数据源组成。基于 git 的数据源来自上游仓库,并以 git 子模块的形式组织在此仓库中。非基于 git 的数据源是通过爬取并维护在此仓库中的。

快速开始

如果现有的 VulZoo 数据满足您的需求,可以直接克隆仓库:

bash git clone https://github.com/NUS-Curiosity/VulZoo

数据集位于 processed/ 目录中。如果需要最新的数据,请按照以下数据管理流程操作。

数据同步

  1. 克隆仓库并初始化子模块:

bash git clone --recurse-submodules https://github.com/NUS-Curiosity/VulZoo

  1. 安装所需的 Python 包:

bash pip install -r requirements.txt

  1. 运行 sync-raw-data.sh 脚本以增量更新本地原始数据:

bash ./sync-raw-data.sh

  1. 运行 sync-processed.sh 脚本以处理原始数据并同步最新的处理数据:

bash ./sync-processed.sh

额外提示

  • 可以运行 print-statistics.py 脚本获取处理数据的统计信息。
  • attackerkb-database 的更新需要 AttackerKB 提供的 API 密钥,请通过环境变量设置并手动运行 sync-attackerkb.py 脚本。
  • CPE 字典过大,无法上传到 GitHub,请在本地运行 sync-cpe.sh 脚本。

数据来源

结构化数据

  • CVE (Common Vulnerabilities and Exposures)
  • NVD (National Vulnerability Database)
  • CWE (Common Weakness Enumeration)
  • CAPEC (Common Attack Pattern Enumeration and Classification)
  • CISA KEV (Known Exploited Vulnerabilities)
  • ZDI Advisory
  • GitHub Advisory
  • MITRE ATT&CK
  • MITRE D3FEND
  • AttackerKB

非结构化数据

  • Exploit-DB
  • oss-security mailing list
  • full-disclosure mailing list
  • bugtraq mailing list
  • GitHub
  • git.kernel.org

混合数据

  • Linux Kernel Vulns

引用

如果使用此数据集,请引用 VulZoo 论文

@article{ruan2024vulzoo, title={VulZoo: A Comprehensive Vulnerability Intelligence Dataset}, author={Bonan Ruan and Jiahao Liu and Weibo Zhao and Zhenkai Liang}, year={2024}, eprint={2406.16347}, eprinttype={arXiv} }

搜集汇总
数据集介绍
main_image_url
构建方式
VulZoo数据集的构建方式是从17个流行的漏洞信息源中收集数据,包括结构化和非结构化数据。结构化数据包含来自4个流行在线数据库的604,943个CVE记录,以及8个与漏洞相关的目录的评估相关指标。非结构化数据包括46,882个与漏洞相关的邮件、46,540个PoC和12,626个补丁。数据收集过程包括数据源验证、数据抓取、数据过滤、数据去重、格式统一、关系挖掘和统计分析等步骤。
使用方法
使用VulZoo数据集的方法包括:首先,可以通过数据集提供的CVE记录来了解漏洞的基本信息;其次,可以利用评估指标进行漏洞严重性和类型的预测;最后,可以通过分析邮件、PoC和补丁来深入了解漏洞的 exploitability 和影响。数据集还提供了多个实用脚本,用于数据同步、清洗、关系挖掘和统计生成,以便于用户更方便地使用和维护数据集。
背景与挑战
背景概述
VulZoo是一个全面性的软件漏洞智能数据集,由新加坡国立大学的研究团队创建。该数据集汇集了来自17个流行漏洞信息源的异构数据,旨在为漏洞评估和优先级排序任务提供支持。VulZoo包含了结构化和非结构化数据,其中结构化数据涵盖了604,943个CVE记录和8个与漏洞相关的评估指标,非结构化数据则包括46,882个与漏洞相关的邮件、46,540个PoC和12,626个补丁文件。该数据集的创建旨在解决现有研究在数据准备过程中的复杂性和耗时问题,以及现有数据源在覆盖面上的局限性。
当前挑战
VulZoo在构建过程中面临的挑战主要包括:1)如何从多样化的数据源中有效地抽取和整合漏洞信息;2)如何构建和维护一个包含大量漏洞信息的全面数据集,同时保持数据的准确性和时效性;3)如何挖掘和表示不同数据源之间的关联,以支持各种漏洞评估任务。此外,VulZoo在解决领域问题如漏洞分类、影响评估和利用难度预测等方面也面临挑战,需要从数据集中提取深层次的特征和关系,以提供更精准的评估。
常用场景
经典使用场景
VulZoo数据集最经典的使用场景在于为软件漏洞评估和优先级排序研究提供全面、异构的漏洞情报。它通过整合17个流行漏洞信息源,构建了一个结构化和非结构化数据相结合的复合数据集,支持研究者从不同角度对漏洞进行深入分析,例如漏洞类型预测、攻击模式识别和防御策略制定。
解决学术问题
VulZoo数据集解决了现有研究中数据源单一、数据准备复杂、缺乏全局漏洞情报概览等问题。它提供了一个综合性的数据集,包含了不同数据库的信息,如CVE记录、评估指标、PoC、邮件和补丁等,使得研究者能够更高效地进行漏洞评估和优先级排序研究。
实际应用
在实际应用中,VulZoo数据集可以帮助安全分析师和管理员更好地理解和管理软件漏洞,通过自动化的数据同步和清洗脚本,以及关系挖掘和统计生成工具,提高了漏洞管理过程的效率和准确性。
数据集最近研究
最新研究方向
VulZoo数据集最新研究方向主要聚焦于软件漏洞的评估和优先级排序。该数据集整合了17个流行的漏洞信息源,提供了一个全面覆盖漏洞情报的视角。研究者可以利用VulZoo中的大规模数据,训练统计或深度学习模型,以预测新漏洞的CVSS评分和向量,或者提出并应用基于相似度的算法来衡量VulZoo中的漏洞与未来新漏洞之间的相似度。此外,研究者可以直接在VulZoo上进行情报对齐研究,挖掘深层次的关系,并解决结构化和非结构化实体之间的一致性问题。VulZoo的构建旨在为未来的漏洞评估和优先级排序研究提供有价值的输入。
相关研究论文
  • 1
    VulZoo: A Comprehensive Vulnerability Intelligence Dataset新加坡国立大学 · 2024年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作