Cybersecurity-LLM-CVE
收藏Hugging Face2025-04-20 更新2025-04-21 收录
下载链接:
https://huggingface.co/datasets/Bouquets/Cybersecurity-LLM-CVE
下载链接
链接失效反馈官方服务:
资源简介:
Cybersecurity-LLM-CVE数据集是一个为大型语言模型(LLM)在网络安全领域进行训练和评估而设计的开源漏洞数据集。该数据集包含了从2021年1月1日至2025年4月9日的所有公开CVE IDs,提供了包括受影响产品和公开日期在内的详细漏洞信息。数据集整合了来自NVD、CVE列表和社区的贡献,并经过了双重验证,保证了数据的权威性和全面性。
创建时间:
2025-04-10
搜集汇总
数据集介绍

构建方式
在网络安全领域,漏洞数据的系统化收集与整理对人工智能模型的训练至关重要。Cybersecurity-LLM-CVE数据集通过整合2021年1月1日至2025年4月9日期间所有公开的CVE ID,构建了一个全面的漏洞数据库。数据来源包括美国国家漏洞数据库(NVD)、CVE官方列表以及社区贡献,并经过双重验证确保准确性。结构化数据涵盖了漏洞详情、受影响产品和披露日期等关键信息,为研究提供了坚实基础。
特点
该数据集以其全面性和权威性著称,收录了五年间全球范围内的软件、硬件及协议漏洞记录。独特之处在于其多源数据融合机制,将官方漏洞库与社区智慧相结合,形成跨平台、多维度的安全情报资源。数据字段设计兼顾机器可读性与安全分析需求,特别适合大语言模型处理,为安全领域的自然语言处理任务提供了高质量语料。
使用方法
研究人员可通过Hugging Face数据集库直接调用该资源,建议在引用时注明数据来源。典型应用场景包括但不限于:基于大语言模型的漏洞补丁生成、自动化威胁情报分析系统开发,以及渗透测试工具的功能增强。使用时应充分理解数据的时间局限性,建议结合最新安全公告进行交叉验证,以确保分析结果的时效性。
背景与挑战
背景概述
随着人工智能技术在网络安全领域的深度应用,Cybersecurity-LLM-CVE数据集应运而生,旨在为大型语言模型(LLMs)在安全领域的训练与评估提供专业支持。该数据集由开源社区联合网络安全专家于2025年构建,整合了2021年1月1日至2025年4月9日期间所有公开的CVE漏洞数据,涵盖软件、硬件及协议等多维度漏洞信息。其权威性体现在数据源的选择上,主要来自美国国家漏洞数据库(NVD)、CVE官方列表以及经过双重验证的社区贡献。这一数据集的建立,不仅填补了LLMs在网络安全领域专业语料库的空白,更为自动化漏洞修复、威胁情报分析等前沿研究提供了重要基础。
当前挑战
Cybersecurity-LLM-CVE数据集面临的核心挑战主要体现在两个方面:领域问题层面,网络安全漏洞具有高度动态性和复杂性,如何确保LLMs准确理解漏洞的技术细节并生成有效的修复方案,仍存在语义理解深度不足的难题;数据构建层面,跨源数据整合过程中面临标准化难题,不同漏洞描述存在术语不一致、格式异构等问题,且部分早期漏洞记录存在信息缺失,需通过专家知识进行补全。此外,随着新型攻击手段的不断涌现,数据集的时效性维护也面临持续更新的压力。
常用场景
经典使用场景
在网络安全领域,Cybersecurity-LLM-CVE数据集为大型语言模型的训练与评估提供了丰富资源。该数据集整合了2021年至2025年间公开的所有CVE漏洞数据,涵盖软件、硬件及协议层面的安全缺陷,成为研究人员构建漏洞自动分析系统的核心语料库。其结构化特征尤其适合训练模型理解漏洞描述、受影响产品等关键要素。
实际应用
安全厂商已将该数据集集成到自动化威胁检测流水线中,通过微调领域专用LLM实现实时漏洞影响评估。企业安全团队利用其生成的补丁建议缩短应急响应周期,而渗透测试工具集成该数据后,可自动匹配最新漏洞特征库,提升红队作战效率。部分云安全平台已实现基于该数据集的智能预警系统。
衍生相关工作
基于该数据集的开源项目VulBERT开创了预训练-微调范式在安全文本分析中的应用,后续研究进一步扩展出漏洞知识图谱构建、跨语言漏洞迁移学习等方向。工业界衍生的ThreatMind系统实现了漏洞关联分析的可视化,而学术团队开发的PatchGen框架则验证了LLM生成可信补丁的可行性。
以上内容由遇见数据集搜集并总结生成



