jason-oneal/mitre-stix-cve-exploitdb-dataset-alpaca-chatml-harmony

Name: jason-oneal/mitre-stix-cve-exploitdb-dataset-alpaca-chatml-harmony
Creator: jason-oneal
Published: 2026-04-25 19:36:18
License: 暂无描述

Hugging Face2026-04-25 更新2026-04-26 收录

下载链接：

https://hf-mirror.com/datasets/jason-oneal/mitre-stix-cve-exploitdb-dataset-alpaca-chatml-harmony

下载链接

链接失效反馈

官方服务：

资源简介：

MITRE+NVD+ExploitDB数据集是一个用于训练AI助手进行漏洞分析和渗透测试问答的数据集。它通过`pentestds`流水线构建，整合了来自MITRE CVE、NVD（CVSS增强）、ExploitDB以及少量HuggingFace数据集的数据。每条记录都包含来源信息，流水线生成Alpaca、ChatML和Harmony格式的JSONL文件。数据集包含CVE数据、CVSS评分、漏洞利用代码、安全编码对话、红队技术以及安全映射场景等多种数据类型，支持漏洞分析、漏洞利用开发、渗透测试方法学等任务。数据集每日自动更新，并通过严格的验证和清洗流程确保数据质量。

The MITRE+NVD+ExploitDB Dataset is designed for training AI assistants/agents on vulnerability analysis and pentesting Q&A. It is built by the `pentestds` pipeline, which fetches and merges data from MITRE CVE, NVD (CVSS enrichment), ExploitDB, and a small set of HuggingFace datasets. Provenance is recorded for every entry, and the pipeline emits Alpaca, ChatML, and Harmony JSONL files. The dataset includes various data types such as CVE data, CVSS metrics, exploit code, secure coding dialogues, red team techniques, and security mappings. It supports tasks like vulnerability analysis, exploit development, pentesting methodology, and more. The dataset is updated daily, undergoes rigorous validation and cleaning, and maintains high-quality metrics.

提供机构：

jason-oneal

搜集汇总

数据集介绍

构建方式

在网络安全领域，高质量的语料库对于训练能够理解漏洞分析与渗透测试的人工智能助手至关重要。该数据集依托‘pentestds’自动化流水线构建，通过整合多个权威数据源实现。具体而言，流水线从MITRE CVE数据库获取漏洞基础信息，从NVD（美国国家漏洞数据库）同步并提取CVSS评分数据，从ExploitDB索引并关联漏洞利用代码。同时，它融合了来自HuggingFace的MITRE ATT&CK推理与TTP映射等补充数据集。所有记录均经由Pydantic模式进行严格验证，并记录来源以追溯数据源头。最终，流水线将处理后的数据以Alpaca、ChatML及Harmony三种JSONL格式输出，并自动划分训练集与验证集。

特点

该数据集最显著的特点在于其多源融合与专业聚焦。它将CVE漏洞情报、CVSS量化评分、ExploitDB的利用代码、安全编码对话以及红队战术推理等多种数据类型有机整合，形成了一个覆盖漏洞分析、利用开发、渗透测试规划及工具使用的全方位知识图谱。数据集同时提供Alpaca、ChatML和Harmony三种对话格式，以适应不同模型的训练范式。在质量控制方面，通过约250,000条记录的严格处理，实现了98%的有效记录率与100%的模式合规率，并剔除了约5,000条重复内容，确保了数据的高质量与可靠性。

使用方法

使用者可通过HuggingFace的`datasets`库便捷加载该数据集。例如，指定仓库ID并选择`data_files`参数中的`alpaca/train.jsonl`或`chatml/train.jsonl`等路径，即可分别获取三种格式的数据。对于Alpaca格式，每条记录包含指令与输出字段，适合用于指令微调；ChatML格式则组织为多轮对话结构，便于模拟交互场景；Harmony格式提供原始的文本。在训练过程中，可以直接解析这些结构化字段，将指令或对话内容作为输入，用于微调诸如DialoGPT等因果语言模型，以构建具备网络安全专项能力的智能助手。

背景与挑战

背景概述

在网络安全领域，漏洞分析与渗透测试的自动化已成为关键研究方向，而高质量数据集的匮乏长期制约着智能安全助手的训练与部署。该数据集由Jason O'Neal于2024年创建，依托自动化流水线融合了MITRE CVE、NVD、ExploitDB等多个权威来源的漏洞与攻击技术信息，并整合了MITRE ATT&CK推理、安全TTP映射及SecureCode v2等辅助数据集。其核心研究问题聚焦于构建一个多格式、可追溯的语料库，以赋能AI模型在漏洞解释、利用代码生成及渗透测试方法论等任务上的表现。该数据集提供了Alpaca、ChatML和Harmony三种对话格式，总记录数超过3700条，且通过每日自动化更新保持时效性。其对相关领域的影响力体现在为红队操作模拟和安全工具理解提供了结构化的训练基准，填补了开源安全数据集在格式标准化与数据来源溯源方面的空白。

当前挑战

该数据集所解决的领域挑战主要包含三类：首先，安全漏洞与攻击技术信息分散于MITRE、NVD、ExploitDB等多个异构数据库，缺乏统一的访问接口与关联机制；其次，现有安全数据集多以单一格式（如纯文本或特定JSON）呈现，难以适配不同AI训练框架（如指令微调、多轮对话）的需求；最后，渗透测试场景复杂多变，现有数据对工具使用的覆盖和场景多样性存在局限。在构建过程中，该数据集面临多源数据融合的验证难题，例如CVE数据与ExploitDB漏洞利用的精准对应、不同来源许可协议的合规性处理，以及Pydantic模式对约250,000条记录的严格校验——最终筛选出约245,000条有效记录，并需剔除约5,000条重复数据和清理约1,000条内容异常项。此外，数据集的英语单语特性与地理偏向性也构成局限性，可能限制其在全球化安全实践中的泛化能力。

常用场景

经典使用场景

在网络安全领域，MITRE-STIX-CVE-ExploitDB-Dataset-Alpaca-ChatML-Harmony数据集为大型语言模型的微调与评估提供了丰富的指令微调资源。其经典使用场景集中在基于对话的漏洞分析与渗透测试知识问答上。其中，Alpaca格式适用于单轮指令学习，引导模型针对给定CVE编号或攻击手法进行精准解释；ChatML格式则通过多轮对话结构（用户与助手角色的交替），模拟真实渗透测试场景中的交互与推理过程；Harmony格式则提供原始标记序列，适用于更灵活的自回归语言模型训练。这一多格式设计使研究者能够选择与自身任务最契合的数据结构，极大促进了AI助手在网络安全专业问答能力上的构建与优化。

解决学术问题

该数据集系统性地回应了网络安全智能化研究中长期存在的若干关键学术难题。其一，通过融合MITRE CVE官方库、NVD的CVSS评分体系、ExploitDB的利用代码以及多个高质量HuggingFace子集，它有效解决了单一数据源导致的场景覆盖不足与知识碎片化问题，为模型提供了兼具广度与深度的漏洞资讯。其二，数据集内置严格的数据清洗、去重与Pydantic模式验证机制，并记录每条记录的来源与谱系，从而消除了训练数据中噪声大、质量参差与不可追溯的隐患，提升了学术实验的可复现性。其三，借助自动化流水线实现每日更新，数据集突破了传统静态资源时效性差、滞后于新型安全威胁的瓶颈，为持续学习与动态知识注入的研究提供了坚实的实验基础。

衍生相关工作

基于该数据集的复合结构与高质量标注，学术界与工业界已衍生出多项精深研究工作。在模型层面，研究者利用其Alpaca与ChatML版本监督微调各类语言模型（如Llama、CodeLLaMA衍生系列），训练出面向网络安全领域的专用助手，显著提升了对CVE细节、漏洞复现步骤以及攻击图谱推理的理解能力。部分工作进一步将MITRE ATT&CK推理数据与TTP映射场景相结合，构建了多步骤渗透测试的自动化决策框架，促成了从静态知识问答向动态行动规划的跨越。另有工作致力于跨格式一致性研究，探索Alpaca、ChatML与Harmony不同训练范式间的互补优势，进而提出混合微调策略以提升模型鲁棒性。此外，数据集的谱系追踪与更新机制本身也催生了持续学习与模型遗忘在安全领域的应用研究。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集