mitre-stix-cve-exploitdb-dataset

Hugging Face2025-04-11 更新2025-04-12 收录

下载链接：

https://huggingface.co/datasets/jason-oneal/mitre-stix-cve-exploitdb-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

mitre-stix-cve-exploitdb数据集是为了帮助进行渗透测试、漏洞研究和利用训练而设计的。它包括来自MITRE CVE、ExploitDB和STIX等多个来源的丰富数据，用于生成专注于网络安全、CVE漏洞和利用技术的模型训练数据。数据集由CVE条目、ExploitDB相关利用、STIX模式以及NVD和OTX的丰富元数据组成。

创建时间：

2025-04-11

原始信息汇总

mitre-stix-cve-exploitdb-dataset 数据集概述

数据集描述

目的：辅助渗透测试、漏洞研究和利用训练，生成专注于网络安全、CVE漏洞和利用技术的模型训练数据。
数据来源：
- MITRE CVE
- ExploitDB
- STIX
- NVD（国家漏洞数据库）
- AlienVault的OTX平台

数据集内容

CVE条目：来自MITRE CVE数据集的已知漏洞描述和元数据。
ExploitDB：与CVE关联的利用代码，包括代码片段和描述。
STIX模式：MITRE ATT&CK技术、攻击模式和策略。
NVD和OTX增强数据：关于CVE的元数据。

数据集结构

格式：JSONL
字段：
- text：字符串，格式为指令和输出对，用于模型训练。
  - 指令可能询问CVE或利用。
  - 输出提供CVE、利用代码和相关增强数据的详细信息。

使用示例

json { "text": { "instruction": "Explain CVE-2021-34527 and related exploits.", "input": "", "output": "CVE-2021-34527 is a critical vulnerability in the Windows Print Spooler service, allowing remote code execution..." } }

技术细节

大小：大型
语言：英语
版本：1.0.0
下载大小：大型
处理大小：大型

许可与引用

许可证：MIT License
引用： bibtex @misc{pentest_agent_dataset, author = {jason-oneal}, title = {mitre-stix-cve-exploitdb-dataset}, year = {2025}, url = {https://huggingface.co/datasets/jason-oneal/mitre-stix-cve-exploitdb-dataset} }

致谢

感谢MITRE CVE数据集、ExploitDB和STIX的贡献者提供数据支持。

搜集汇总

数据集介绍

构建方式

在网络安全领域，mitre-stix-cve-exploitdb-dataset的构建采用了多源异构数据融合策略，通过系统整合MITRE CVE漏洞库、ExploitDB漏洞利用代码库以及STIX威胁情报框架的核心数据元素。数据集构建过程中，技术团队首先对原始数据进行标准化清洗，建立CVE编号与ExploitDB条目间的映射关系，随后通过STIX模式将攻击技术（TTPs）与漏洞特征进行关联，最终辅以NVD漏洞评分系统和OTX威胁情报平台的元数据增强，形成结构化的JSONL格式数据集。整个构建流程注重保持各数据源间的语义一致性，确保数据间的逻辑关联可追溯。

特点

该数据集最显著的特征在于其多维度的网络安全知识表征体系，不仅包含传统CVE漏洞的文本描述和基础元数据，更创新性地整合了可执行漏洞利用代码、MITRE ATT&CK攻击模式以及威胁情报指标。数据条目采用指令-输出对的结构化设计，使得每条记录既能独立反映特定漏洞的技术细节，又能通过STIX模式展现其在攻击杀伤链中的战术定位。特别值得注意的是，数据集通过NVD的CVSS评分和OTX的威胁上下文数据，为每个漏洞提供了风险量化评估和实战化威胁场景的补充信息。

使用方法

该数据集适用于网络安全领域的多模态研究与应用开发，研究人员可通过加载JSONL格式文件直接获取结构化数据。在机器学习场景中，文本字段的指令-输出对设计特别适合微调大语言模型进行漏洞分析推理，其中用户指令模拟渗透测试人员的查询意图，而系统输出则提供包含漏洞描述、利用代码和战术关联的复合答案。实际使用时建议结合Hugging Face的datasets库进行流式加载，对于大规模训练任务可采用分片处理策略。安全专业人员也可直接解析数据中的STIX模式，将其导入威胁分析平台构建攻击知识图谱。

背景与挑战

背景概述

mitre-stix-cve-exploitdb-dataset由jason-oneal于2025年构建，整合了MITRE CVE、ExploitDB和STIX等多个权威网络安全数据源。该数据集旨在为渗透测试、漏洞研究和利用技术训练提供全面的数据支持，涵盖了漏洞描述、攻击模式、利用代码等关键信息。其核心研究问题聚焦于如何通过结构化数据提升自动化漏洞分析的准确性和效率，对网络安全领域的机器学习模型训练和威胁情报研究具有重要价值。数据集融合了NVD和OTX的元数据，进一步丰富了漏洞的上下文信息，为研究人员提供了多维度的分析视角。

当前挑战

该数据集面临的挑战主要体现在两个方面。在领域问题层面，网络安全漏洞的多样性和动态性使得模型需要持续适应新型攻击手法和零日漏洞，这对数据的时效性和覆盖范围提出了极高要求。构建过程中的挑战则源于多源数据的异构性，如何有效整合MITRE CVE的标准化漏洞描述、ExploitDB的非结构化利用代码以及STIX的复杂攻击模式，需要解决数据格式统一、实体对齐和语义一致性等关键技术问题。此外，确保敏感安全信息的合理脱敏处理，同时保持数据的实用价值，也是数据集构建中需要平衡的重要考量。

常用场景

经典使用场景

在网络安全领域，mitre-stix-cve-exploitdb-dataset数据集被广泛应用于渗透测试和漏洞研究。通过整合MITRE CVE、ExploitDB和STIX等多源数据，该数据集为安全专家提供了丰富的漏洞描述、利用代码和攻击模式信息，成为训练自动化渗透测试模型的核心资源。其结构化数据特别适合用于构建智能漏洞分析系统，帮助研究人员快速定位高危漏洞并评估潜在风险。

实际应用

企业安全团队利用该数据集构建自动化漏洞评估平台，通过匹配系统特征与数据集中的攻击模式，实现快速风险预警。网络安全教育机构则将其作为渗透测试课程的实践素材，学员通过分析真实漏洞利用案例掌握实战技能。政府部门借助该数据集进行网络威胁情报分析，追踪特定攻击者使用的战术技术和程序（TTPs）。

衍生相关工作

基于该数据集衍生的经典研究包括自动化渗透测试框架的开发，如结合强化学习的智能漏洞利用系统。在学术领域，研究者利用其构建了多个基准测试集，用于评估漏洞检测算法的性能。工业界则开发了集成STIX模式的可视化威胁分析平台，这些工作显著推进了网络安全智能化的进程。

以上内容由遇见数据集搜集并总结生成