Cybersecurity-LLM-CVE

Hugging Face2025-04-20 更新2025-04-21 收录

下载链接：

https://huggingface.co/datasets/Bouquets/Cybersecurity-LLM-CVE

下载链接

链接失效反馈

官方服务：

资源简介：

Cybersecurity-LLM-CVE数据集是一个为大型语言模型（LLM）在网络安全领域进行训练和评估而设计的开源漏洞数据集。该数据集包含了从2021年1月1日至2025年4月9日的所有公开CVE IDs，提供了包括受影响产品和公开日期在内的详细漏洞信息。数据集整合了来自NVD、CVE列表和社区的贡献，并经过了双重验证，保证了数据的权威性和全面性。

创建时间：

2025-04-10

搜集汇总

数据集介绍

构建方式

在网络安全领域，漏洞数据的系统化收集与整理对人工智能模型的训练至关重要。Cybersecurity-LLM-CVE数据集通过整合2021年1月1日至2025年4月9日期间所有公开的CVE ID，构建了一个全面的漏洞数据库。数据来源包括美国国家漏洞数据库（NVD）、CVE官方列表以及社区贡献，并经过双重验证确保准确性。结构化数据涵盖了漏洞详情、受影响产品和披露日期等关键信息，为研究提供了坚实基础。

特点

该数据集以其全面性和权威性著称，收录了五年间全球范围内的软件、硬件及协议漏洞记录。独特之处在于其多源数据融合机制，将官方漏洞库与社区智慧相结合，形成跨平台、多维度的安全情报资源。数据字段设计兼顾机器可读性与安全分析需求，特别适合大语言模型处理，为安全领域的自然语言处理任务提供了高质量语料。

使用方法

研究人员可通过Hugging Face数据集库直接调用该资源，建议在引用时注明数据来源。典型应用场景包括但不限于：基于大语言模型的漏洞补丁生成、自动化威胁情报分析系统开发，以及渗透测试工具的功能增强。使用时应充分理解数据的时间局限性，建议结合最新安全公告进行交叉验证，以确保分析结果的时效性。

背景与挑战

背景概述

随着人工智能技术在网络安全领域的深度应用，Cybersecurity-LLM-CVE数据集应运而生，旨在为大型语言模型（LLMs）在安全领域的训练与评估提供专业支持。该数据集由开源社区联合网络安全专家于2025年构建，整合了2021年1月1日至2025年4月9日期间所有公开的CVE漏洞数据，涵盖软件、硬件及协议等多维度漏洞信息。其权威性体现在数据源的选择上，主要来自美国国家漏洞数据库（NVD）、CVE官方列表以及经过双重验证的社区贡献。这一数据集的建立，不仅填补了LLMs在网络安全领域专业语料库的空白，更为自动化漏洞修复、威胁情报分析等前沿研究提供了重要基础。

当前挑战

Cybersecurity-LLM-CVE数据集面临的核心挑战主要体现在两个方面：领域问题层面，网络安全漏洞具有高度动态性和复杂性，如何确保LLMs准确理解漏洞的技术细节并生成有效的修复方案，仍存在语义理解深度不足的难题；数据构建层面，跨源数据整合过程中面临标准化难题，不同漏洞描述存在术语不一致、格式异构等问题，且部分早期漏洞记录存在信息缺失，需通过专家知识进行补全。此外，随着新型攻击手段的不断涌现，数据集的时效性维护也面临持续更新的压力。

常用场景

经典使用场景

在网络安全领域，Cybersecurity-LLM-CVE数据集为大型语言模型的训练与评估提供了丰富资源。该数据集整合了2021年至2025年间公开的所有CVE漏洞数据，涵盖软件、硬件及协议层面的安全缺陷，成为研究人员构建漏洞自动分析系统的核心语料库。其结构化特征尤其适合训练模型理解漏洞描述、受影响产品等关键要素。

实际应用

安全厂商已将该数据集集成到自动化威胁检测流水线中，通过微调领域专用LLM实现实时漏洞影响评估。企业安全团队利用其生成的补丁建议缩短应急响应周期，而渗透测试工具集成该数据后，可自动匹配最新漏洞特征库，提升红队作战效率。部分云安全平台已实现基于该数据集的智能预警系统。

衍生相关工作

基于该数据集的开源项目VulBERT开创了预训练-微调范式在安全文本分析中的应用，后续研究进一步扩展出漏洞知识图谱构建、跨语言漏洞迁移学习等方向。工业界衍生的ThreatMind系统实现了漏洞关联分析的可视化，而学术团队开发的PatchGen框架则验证了LLM生成可信补丁的可行性。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集