VulZoo|漏洞情报数据集|网络安全数据集
收藏VulZoo 数据集概述
简介
VulZoo 是一个大规模的漏洞情报数据集,整合了多种结构化和非结构化数据源。该数据集旨在为安全研究人员、渗透测试人员和安全分析师提供全面的漏洞及其相关数据视图。
数据集分为两部分:
raw-data/
:包含来自不同来源的原始数据。processed/
:包含从原始数据中提取或转换的已处理数据。
VulZoo 旨在为下游任务提供最全面的漏洞画像,例如漏洞检测、评估、优先级排序、利用和缓解。
数据管理
前提条件
- Python 3.6+
- 磁盘空间:25GB+
VulZoo 包含基于 git 和非基于 git 的数据源。基于 git 的数据源来自上游仓库,并作为 git 子模块组织在此仓库中。非基于 git 的数据源在此仓库中爬取和维护。
快速开始
bash git clone --recurse-submodules https://github.com/NUS-Curiosity/VulZoo
VulZoo 提供了一些有用的脚本来帮助管理数据。建议首先安装所需的 Python 包:
bash pip install -r requirements.txt
可以运行 sync-raw-data.sh
脚本来增量更新本地原始数据:
bash ./sync-raw-data.sh
然后,可以运行 sync-processed.sh
脚本来处理原始数据并同步已处理的最新数据:
bash ./sync-processed.sh
额外说明
- 可以运行
print-statistics.py
来获取已处理数据的统计信息。 attackerkb-database
的更新需要 AttackerKB 提供的 API 密钥。请通过环境变量设置并手动运行sync-attackerkb.py
。- CPE 字典太大,无法上传到 GitHub。请在本地运行
scripts/raw-data
和scripts/processed
中的sync-cpe.sh
脚本。
数据来源
结构化
- CVE (Common Vulnerabilities and Exposures)
- NVD (National Vulnerability Database)
- CWE (Common Weakness Enumeration)
- CAPEC (Common Attack Pattern Enumeration and Classification)
- CISA KEV (Known Exploited Vulnerabilities)
- ZDI Advisory
- GitHub Advisory
- MITRE ATT&CK
- MITRE D3FEND
- AttackerKB
非结构化
- Exploit-DB
- oss-security mailing list
- full-disclosure mailing list
- bugtraq mailing list
- GitHub
- git.kernel.org
混合
- Linux Kernel Vulns
引用
如果使用此数据集,请引用 VulZoo 论文:
@article{ruan2024vulzoo, title={VulZoo: A Comprehensive Vulnerability Intelligence Dataset}, author={Bonan Ruan and Jiahao Liu and Weibo Zhao and Zhenkai Liang}, year={2024}, eprint={2406.16347}, eprinttype={arXiv} }

LinkedIn Salary Insights Dataset
LinkedIn Salary Insights Dataset 提供了全球范围内的薪资数据,包括不同职位、行业、地理位置和经验水平的薪资信息。该数据集旨在帮助用户了解薪资趋势和市场行情,支持职业规划和薪资谈判。
www.linkedin.com 收录
GME Data
关于2021年GameStop股票活动的数据,包括每日合并的GME短期成交量数据、每日失败交付数据、可借股数、期权链数据以及不同时间框架的开盘/最高/最低/收盘/成交量条形图。
github 收录
中国1km分辨率逐月降水量数据集(1901-2023)
该数据集为中国逐月降水量数据,空间分辨率为0.0083333°(约1km),时间为1901.1-2023.12。数据格式为NETCDF,即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集,通过Delta空间降尺度方案在中国降尺度生成的。并且,使用496个独立气象观测点数据进行验证,验证结果可信。本数据集包含的地理空间范围是全国主要陆地(包含港澳台地区),不含南海岛礁等区域。为了便于存储,数据均为int16型存于nc文件中,降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理,Matlab发布了读入与存储nc文件的函数,读取函数为ncread,切换到nc文件存储文件夹,语句表达为:ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent]),其中XXX.nc为文件名,为字符串需要’’;var是从XXX.nc中读取的变量名,为字符串需要’’;i、j、t分别为读取数据的起始行、列、时间,leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样,研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令,可查看。数据坐标系统建议使用WGS84。
国家青藏高原科学数据中心 收录
BANTH
BANTH数据集是由Penta Global Limited和Islamic University of Technology合作创建的,专门用于检测和分类转写孟加拉语中的仇恨言论。该数据集包含37,350条样本,主要来源于YouTube评论,涵盖新闻与政治、人物与博客、娱乐等多个类别。数据集的创建过程包括数据抓取、过滤、清洗和多轮人工标注与验证,确保了数据的高质量和准确性。BANTH数据集的应用领域主要集中在多标签仇恨言论检测,旨在解决低资源语言中仇恨言论自动检测的挑战,并为未来的跨语言和多标签分类研究奠定基础。
arXiv 收录
FSDD
FSDD(Free Spoken Digit Dataset)是一个开源的语音数据集,包含由不同说话者朗读的数字0到9的音频文件。该数据集旨在用于语音识别和机器学习算法的训练和测试。
github.com 收录