All-CVE-Records-Training-Dataset

Hugging Face2025-06-12 更新2025-06-13 收录

下载链接：

https://huggingface.co/datasets/AlicanKiraz0/All-CVE-Records-Training-Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

CVE聊天风格多轮网络安全数据集（1999-2025），包含约30万个在1999年至2025年间发布的CVE记录，每个记录都被解析并转换成对话格式，适合用于训练和评估漏洞分析、威胁情报和网络安全自动化的AI和AI代理系统。

创建时间：

2025-06-11

搜集汇总

数据集介绍

构建方式

在网络安全领域，数据集的构建采用了高度系统化的工程流程。该数据集通过聚合CVE 4.0版本的XML数据源与5.0及以上版本的JSON数据源，利用基于Rust和Python的异步解析架构实现百分之百的解析准确率。随后通过集成CVSS评分体系、CWE分类标准以及受影响产品矩阵等多维度信息，并注入专家系统提示模板，最终生成具有多轮对话结构的标准化记录。

特点

本数据集作为当前规模最大的公开网络安全对话数据集，涵盖1999年至2025年间约30万条CVE记录，同时兼容传统与现代数据格式。其显著特征包括经过严格验证的解析精度、完整的漏洞严重性评分与分类体系，以及专门设计的系统-用户-助手多轮对话框架，为模型训练提供了丰富的上下文语义环境。

使用方法

研究人员可通过HuggingFace数据集库直接加载该资源，支持以JSONL格式获取包含系统指令、用户查询和助手回复的完整对话数据。该数据集适用于大语言模型的精细化调优、时序性漏洞披露分析、检索增强生成技术验证以及实时威胁情报服务开发，其标准化的数据结构便于集成到自动化渗透测试与智能体管道中。

背景与挑战

背景概述

网络安全领域对漏洞分析与威胁情报自动化的需求催生了CVE聊天式多轮网络安全数据集的构建。该数据集由专业研究团队于近期发布，涵盖1999年至2025年期间约30万条通用漏洞披露记录，采用异步解析与多轮对话格式生成技术，旨在支持大语言模型在漏洞分类与严重性预测方面的微调研究。其全面覆盖CVE 4.0与5.0+格式的解析精度达到百分之百，为网络安全智能代理系统提供了高质量的训练基础，显著推动了自动化渗透测试与实时威胁情报分析的技术发展。

当前挑战

该数据集核心挑战在于解决多源异构漏洞数据的标准化整合与高精度解析问题，需克服CVE历史数据格式差异与语义一致性难题。构建过程中面临大规模异步数据处理的工程复杂性，包括跨版本XML与JSONfeed的解析兼容性、CVSS评分与CWE分类体系的动态映射，以及多轮对话生成中专家知识注入的准确性保障。此外，需确保30万条记录在时序跨度与内容维度上的完整性，同时维持百分之百的解析验证与去重机制的技术可行性。

常用场景

经典使用场景

在网络安全领域，该数据集通过约30万条跨1999至2025年的CVE记录，构建了多轮对话格式的专业语料，为大型语言模型在漏洞分析与威胁情报任务中的微调提供了标准化训练框架。其经典应用场景涵盖自动化漏洞分级、严重性预测及渗透测试模拟，显著提升了AI系统对复杂网络安全事件的解析能力与响应精度。

实际应用

实际部署中，该数据集广泛应用于企业级安全运营中心（SOC）的实时威胁情报增强服务，通过检索增强生成（RAG）技术赋能自动化渗透测试流程。其多轮对话结构可直接集成至网络安全问答系统与AI代理管道，为漏洞响应策略制定、高危产品矩阵分析及应急响应决策提供数据驱动的技术支持，显著降低人工分析成本并提升防御效率。

衍生相关工作

基于该数据集衍生的经典工作包括基于Llama 3.2与Gemma模型的CVE分类预测系统，实现了94%的准确率突破；同时催生了专注于时序漏洞模式挖掘的深度学习方法，以及结合强化学习的自主渗透测试代理框架。这些研究不仅拓展了多模态威胁情报分析的技术边界，更为构建下一代自适应网络安全防御体系提供了关键数据基石。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集