five

VulZoo|漏洞情报数据集|网络安全数据集

收藏
github2024-06-25 更新2024-06-26 收录
漏洞情报
网络安全
下载链接:
https://github.com/NUS-Curiosity/VulZoo
下载链接
链接失效反馈
资源简介:
VulZoo是一个大规模的漏洞情报数据集,整合了多种结构化和非结构化数据源。它旨在供安全研究人员、渗透测试人员和安全分析师使用,以获得漏洞及其相关数据的全面视图。
创建时间:
2024-06-01
原始信息汇总

VulZoo 数据集概述

简介

VulZoo 是一个大规模的漏洞情报数据集,整合了多种结构化和非结构化数据源。该数据集旨在为安全研究人员、渗透测试人员和安全分析师提供全面的漏洞及其相关数据视图。

数据集分为两部分:

  • raw-data/:包含来自不同来源的原始数据。
  • processed/:包含从原始数据中提取或转换的已处理数据。

VulZoo 旨在为下游任务提供最全面的漏洞画像,例如漏洞检测、评估、优先级排序、利用和缓解。

数据管理

前提条件

  • Python 3.6+
  • 磁盘空间:25GB+

VulZoo 包含基于 git 和非基于 git 的数据源。基于 git 的数据源来自上游仓库,并作为 git 子模块组织在此仓库中。非基于 git 的数据源在此仓库中爬取和维护。

快速开始

bash git clone --recurse-submodules https://github.com/NUS-Curiosity/VulZoo

VulZoo 提供了一些有用的脚本来帮助管理数据。建议首先安装所需的 Python 包:

bash pip install -r requirements.txt

可以运行 sync-raw-data.sh 脚本来增量更新本地原始数据:

bash ./sync-raw-data.sh

然后,可以运行 sync-processed.sh 脚本来处理原始数据并同步已处理的最新数据:

bash ./sync-processed.sh

额外说明

  • 可以运行 print-statistics.py 来获取已处理数据的统计信息。
  • attackerkb-database 的更新需要 AttackerKB 提供的 API 密钥。请通过环境变量设置并手动运行 sync-attackerkb.py
  • CPE 字典太大,无法上传到 GitHub。请在本地运行 scripts/raw-datascripts/processed 中的 sync-cpe.sh 脚本。

数据来源

结构化

  • CVE (Common Vulnerabilities and Exposures)
  • NVD (National Vulnerability Database)
  • CWE (Common Weakness Enumeration)
  • CAPEC (Common Attack Pattern Enumeration and Classification)
  • CISA KEV (Known Exploited Vulnerabilities)
  • ZDI Advisory
  • GitHub Advisory
  • MITRE ATT&CK
  • MITRE D3FEND
  • AttackerKB

非结构化

  • Exploit-DB
  • oss-security mailing list
  • full-disclosure mailing list
  • bugtraq mailing list
  • GitHub
  • git.kernel.org

混合

  • Linux Kernel Vulns

引用

如果使用此数据集,请引用 VulZoo 论文

@article{ruan2024vulzoo, title={VulZoo: A Comprehensive Vulnerability Intelligence Dataset}, author={Bonan Ruan and Jiahao Liu and Weibo Zhao and Zhenkai Liang}, year={2024}, eprint={2406.16347}, eprinttype={arXiv} }

AI搜集汇总
数据集介绍
main_image_url
构建方式
VulZoo数据集的构建方式体现了其全面性和多样性。该数据集整合了来自多个结构化和非结构化数据源的信息,包括CVE、NVD、CWE、CAPEC、CISA KEV、ZDI Advisory、GitHub Advisory等。这些数据源通过自动化脚本进行定期更新和同步,确保数据的时效性和准确性。数据集分为原始数据和处理后的数据两部分,原始数据存储在`raw-data/`目录中,而处理后的数据则存储在`processed/`目录中。处理过程包括数据提取、转换和整合,旨在为下游任务如漏洞检测、评估和优先级排序提供全面的支持。
特点
VulZoo数据集的特点在于其广泛的数据覆盖和高度整合的信息。该数据集不仅包含了结构化的漏洞信息,如CVE和NVD,还涵盖了非结构化的数据源,如Exploit-DB和多个安全邮件列表。这种多源数据的整合使得VulZoo能够提供一个全面的漏洞情报视图,支持多种安全研究和分析任务。此外,数据集的更新机制确保了数据的实时性,使得研究人员能够及时获取最新的漏洞信息。
使用方法
使用VulZoo数据集的方法相对简单且灵活。用户可以通过克隆GitHub仓库来获取数据集的最新版本,无需递归克隆子模块。对于需要最新数据的用户,可以通过运行提供的脚本如`sync-raw-data.sh`和`sync-processed.sh`来更新本地数据。此外,数据集还提供了统计脚本`print-statistics.py`,帮助用户快速了解数据集的概况。对于特定数据源如AttackerKB,用户需要提供API密钥以获取完整数据。总体而言,VulZoo旨在为安全研究人员提供一个易于使用且功能强大的漏洞情报平台。
背景与挑战
背景概述
VulZoo数据集是由NUS-Curiosity团队创建的一个大规模漏洞情报数据集,旨在整合结构化和非结构化数据,为安全研究人员、渗透测试人员和安全分析师提供全面的漏洞信息。该数据集的构建始于2024年,主要研究人员包括Ruan Bonan、Liu Jiahao、Zhao Weibo和Liang Zhenkai。VulZoo的核心研究问题是如何有效地整合和分析来自多个来源的漏洞数据,以支持下游任务如漏洞检测、评估、优先级排序、利用和缓解。该数据集对网络安全领域具有重要影响力,为研究人员提供了一个全面的漏洞情报平台,有助于提升漏洞管理的效率和准确性。
当前挑战
VulZoo数据集在构建过程中面临多个挑战。首先,整合来自不同来源的结构化和非结构化数据需要复杂的数据处理和转换技术。其次,数据集的更新和维护需要高效的同步机制,以确保数据的实时性和准确性。此外,数据集的规模庞大,对存储和计算资源提出了高要求。最后,数据集的使用需要处理敏感信息和遵守相关法律法规,确保数据的安全性和合规性。这些挑战共同构成了VulZoo数据集在实际应用中的主要障碍。
常用场景
经典使用场景
在网络安全领域,VulZoo数据集的经典使用场景主要体现在漏洞情报的综合分析与评估。该数据集整合了多种结构化和非结构化数据源,为安全研究人员、渗透测试人员和安全分析师提供了一个全面的漏洞视图。通过VulZoo,用户可以进行漏洞检测、评估、优先级排序、利用和缓解等下游任务,从而提升网络安全防护的效率和准确性。
衍生相关工作
基于VulZoo数据集,已经衍生出多项经典工作。例如,有研究团队利用该数据集开发了高效的漏洞检测算法,显著提升了检测的准确性和速度。此外,还有学者基于VulZoo进行了漏洞优先级排序的研究,提出了新的评估模型,为实际的漏洞管理提供了科学依据。这些相关工作不仅丰富了网络安全领域的研究内容,也为实际应用提供了有力支持。
数据集最近研究
最新研究方向
在网络安全领域,VulZoo数据集的最新研究方向主要集中在利用其丰富的漏洞情报数据进行深度分析和预测。研究者们致力于通过机器学习和自然语言处理技术,从数据集中提取有价值的模式和关联,以提升漏洞检测、评估和优先级排序的准确性和效率。此外,该数据集还被用于开发和验证新的漏洞利用和缓解策略,从而为实际的安全防御提供理论支持和技术指导。随着网络攻击手段的不断演变,VulZoo数据集的研究对于理解当前威胁态势和预测未来攻击趋势具有重要意义。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

LinkedIn Salary Insights Dataset

LinkedIn Salary Insights Dataset 提供了全球范围内的薪资数据,包括不同职位、行业、地理位置和经验水平的薪资信息。该数据集旨在帮助用户了解薪资趋势和市场行情,支持职业规划和薪资谈判。

www.linkedin.com 收录

GME Data

关于2021年GameStop股票活动的数据,包括每日合并的GME短期成交量数据、每日失败交付数据、可借股数、期权链数据以及不同时间框架的开盘/最高/最低/收盘/成交量条形图。

github 收录

中国1km分辨率逐月降水量数据集(1901-2023)

该数据集为中国逐月降水量数据,空间分辨率为0.0083333°(约1km),时间为1901.1-2023.12。数据格式为NETCDF,即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集,通过Delta空间降尺度方案在中国降尺度生成的。并且,使用496个独立气象观测点数据进行验证,验证结果可信。本数据集包含的地理空间范围是全国主要陆地(包含港澳台地区),不含南海岛礁等区域。为了便于存储,数据均为int16型存于nc文件中,降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理,Matlab发布了读入与存储nc文件的函数,读取函数为ncread,切换到nc文件存储文件夹,语句表达为:ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent]),其中XXX.nc为文件名,为字符串需要’’;var是从XXX.nc中读取的变量名,为字符串需要’’;i、j、t分别为读取数据的起始行、列、时间,leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样,研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令,可查看。数据坐标系统建议使用WGS84。

国家青藏高原科学数据中心 收录

BANTH

BANTH数据集是由Penta Global Limited和Islamic University of Technology合作创建的,专门用于检测和分类转写孟加拉语中的仇恨言论。该数据集包含37,350条样本,主要来源于YouTube评论,涵盖新闻与政治、人物与博客、娱乐等多个类别。数据集的创建过程包括数据抓取、过滤、清洗和多轮人工标注与验证,确保了数据的高质量和准确性。BANTH数据集的应用领域主要集中在多标签仇恨言论检测,旨在解决低资源语言中仇恨言论自动检测的挑战,并为未来的跨语言和多标签分类研究奠定基础。

arXiv 收录

FSDD

FSDD(Free Spoken Digit Dataset)是一个开源的语音数据集,包含由不同说话者朗读的数字0到9的音频文件。该数据集旨在用于语音识别和机器学习算法的训练和测试。

github.com 收录