five

CIRCL/Vulnerability-CNVD

收藏
Hugging Face2026-04-07 更新2025-07-05 收录
下载链接:
https://hf-mirror.com/datasets/CIRCL/Vulnerability-CNVD
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含id、标题、描述和严重性等级等字段的信息,共有两个数据集划分:训练集和测试集。训练集包含108415条数据,测试集包含12047条数据。

The dataset includes fields such as id, title, description, and severity level, and is divided into two sets: training set and test set. The training set contains 108415 records, and the test set contains 12047 records.
提供机构:
CIRCL
搜集汇总
数据集介绍
main_image_url
构建方式
在网络安全领域,漏洞数据库的构建对于风险评估至关重要。Vulnerability-CNVD数据集基于中国国家信息安全漏洞共享平台(CNVD)的公开信息,通过Vulnerability-Lookup工具进行自动化提取与整合。数据采集过程聚焦于包含详细描述和严重性标签的条目,排除了信息不完整的记录,确保了数据的可用性。同时,数据集在构建时特别考虑了描述文本的重复性问题,建议基于唯一描述文本来划分训练与测试集,以避免模型评估中的数据泄露风险。
特点
该数据集以中文呈现漏洞标题与描述,并标注了高、中、低三级严重性标签,为中文网络安全文本分析提供了专门资源。其数据分布呈现不平衡特点,中危漏洞占比最高,而低危样本相对稀少。值得注意的是,约81%的条目与国际通用漏洞标识CVE相对应,但仍有部分条目专注于国内软件生态,反映了地域性安全关注点的差异。数据的时间覆盖揭示了近年公开详情比例显著下降的趋势,这与相关法规的实施背景相吻合。
使用方法
该数据集主要服务于自然语言处理在网络安全领域的应用,例如训练漏洞严重性自动分类模型。使用者可依据其提供的结构化字段,如描述文本和严重性标签,构建有监督学习任务。在具体使用中,应遵循数据集的建议,基于唯一的描述文本来进行数据集的划分,以确保模型性能评估的严谨性。此外,数据集也可用于跨语言漏洞信息对齐研究,或作为分析中国网络安全漏洞态势的基础语料。
背景与挑战
背景概述
在网络安全领域,漏洞数据库的构建与分析对于提升系统防护能力至关重要。Vulnerability-CNVD数据集源自中国国家信息安全漏洞共享平台(CNVD),由CIRCL团队通过Vulnerability-Lookup工具提取并整理,于近年公开发布。该数据集聚焦于中文漏洞描述与严重性分类,核心研究问题在于利用自然语言处理技术自动化评估漏洞风险,以辅助安全专家进行优先级排序。其覆盖了高、中、低三种严重性标签,并关联了国际通用漏洞标识CVE,为中文语境下的网络安全研究提供了关键数据支撑,推动了漏洞管理智能化的发展。
当前挑战
该数据集旨在解决漏洞严重性自动分类的领域挑战,其核心难点在于处理中文文本的语义复杂性以及类别不平衡问题,其中高、中、低严重性样本分布不均,低严重性仅占约9%,可能影响模型泛化性能。构建过程中面临多重挑战:CNVD平台自2021年《网络安全漏洞管理规定》实施后,漏洞详情公开率大幅下降,2023年仅约4%的预留ID发布完整信息,导致数据覆盖受限;同时,数据集中存在大量重复的模板化描述,需基于唯一描述文本划分训练测试集以避免数据泄露;此外,约19%的条目缺乏CVE映射,主要集中在国内软件,增加了跨数据库对齐的难度。
常用场景
经典使用场景
在网络安全领域,漏洞严重性评估是风险管理的核心环节。Vulnerability-CNVD数据集以其大规模的中文漏洞描述和标注的严重性等级,为研究者提供了宝贵的资源。该数据集最经典的使用场景是训练和评估自然语言处理模型,特别是针对中文漏洞文本的自动分类任务。通过利用其丰富的描述性文本和对应的严重性标签,研究人员能够构建高效的机器学习模型,实现漏洞报告的自动化分析与优先级排序,从而提升安全响应的效率。
实际应用
在实际应用层面,Vulnerability-CNVD数据集支撑了多种网络安全解决方案的开发。基于该数据集训练的模型可集成到安全运营中心(SOC)或漏洞管理平台中,实现对新披露漏洞报告的实时自动分类与风险评估。这帮助安全团队快速识别高危漏洞,优化修补资源的分配。同时,该数据集也可用于构建面向中文环境的漏洞知识图谱或智能问答系统,辅助安全分析师进行决策,提升整体防御能力。
衍生相关工作
围绕Vulnerability-CNVD数据集,已衍生出多项经典研究工作。最直接的应用是训练了专门的严重性分类模型,例如CIRCL组织发布的基于MacBERT架构的中文漏洞分类器。这些工作验证了预训练语言模型在专业领域文本分类上的有效性。此外,该数据集也促进了针对漏洞描述文本去重、跨语言漏洞对齐以及考虑中国本土软件漏洞特性的研究,丰富了网络安全领域自然语言处理的研究图谱。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作