简化CVE描述测试数据集
收藏arXiv2026-02-12 更新2026-02-15 收录
下载链接:
https://version.aalto.fi/gitlab/vehomav1/simplification_nmi
下载链接
链接失效反馈官方服务:
资源简介:
该数据集由阿尔托大学研究团队构建,包含40条经过人工清理和标注的通用漏洞披露(CVE)描述文本,旨在评估大语言模型在网络安全领域的文本简化能力。数据源自2025年CVElistV5公开仓库,经研究人员去除日志片段等非自然语言内容后,通过GPT-4o模型生成初步简化版本,并由两组网络安全专家进行两轮人工评估。该数据集主要应用于网络安全知识普及领域,解决技术漏洞报告对非专业用户可读性差的问题,为自动文本简化系统提供基准测试标准。
This dataset was constructed by a research team from Aalto University, consisting of 40 manually cleaned and annotated Common Vulnerabilities and Exposures (CVE) description texts. It is intended to evaluate the text simplification capabilities of Large Language Models (LLMs) within the cybersecurity domain. The raw data is sourced from the publicly available CVElistV5 repository in 2025. After researchers eliminated non-natural language content such as log fragments, preliminary simplified versions were generated using the GPT-4o model, followed by two rounds of manual assessment conducted by two groups of cybersecurity experts. This dataset is primarily applied in the field of cybersecurity knowledge dissemination, addressing the poor readability issue of technical vulnerability reports for non-professional users, and providing a benchmark for automatic text simplification systems.
提供机构:
阿尔托大学·理学院计算机科学系
创建时间:
2026-02-12
搜集汇总
数据集介绍

构建方式
在网络安全领域,文本的复杂性常常成为非专业人士理解漏洞信息的障碍。为了构建简化CVE描述测试数据集,研究团队从CVElistV5仓库中随机选取了100条2025年发布的CVE描述,并从中筛选出40条用于人工评估。这些描述在简化前经过了手动清理,移除了日志摘录等非自然语言内容。简化过程分为两个阶段:首先使用GPT-4o模型在句子级别进行初步简化,随后基于第一轮人工评估的反馈,通过ChatGPT GUI以文档级别进行重新简化,确保简化文本在保持原意的同时提升可读性。
特点
该数据集专注于网络安全领域的文本简化任务,其核心特点在于结合了人工评估与自动化生成。数据集包含40条经过两轮网络安全专家评估的CVE描述简化版本,评估重点包括文本可理解性与意义保持度。此外,数据集还涵盖了多种简化模型的输出结果,如GPT-4o、Gemma3:4b及基于代理的GemmaAgent系统,为不同简化方法的比较提供了基准。数据集的半合成性质使其既能反映自动化简化的潜力,又通过专家反馈确保了简化质量,为网络安全文本简化研究提供了可靠的测试基础。
使用方法
该数据集主要用于评估自动文本简化系统在网络安全领域的性能。研究人员可通过对比不同模型生成的简化文本与原始CVE描述,使用D-SARI、BERTScore等自动化指标衡量简化质量与意义保持度。同时,数据集附带的人工评估结果可作为验证自动化指标有效性的参考。在实际应用中,该数据集可支持开发面向非专业人士的网络安全报告简化工具,通过集成检索增强生成等技术提升简化文本的准确性与可读性,助力跨领域知识传播与决策支持。
背景与挑战
背景概述
在网络安全领域,随着漏洞与暴露(CVE)报告数量的急剧增长,非专业受众理解这些技术性描述面临显著障碍。由芬兰阿尔托大学计算机科学系的Varpu Vehomäki与Kimmo Kaski于2025年主导创建的简化CVE描述测试数据集,旨在探索大型语言模型在自动文本简化(ATS)中的应用,以提升CVE描述的可读性。该数据集包含40条经过人工评估的CVE描述,为核心研究问题——如何在保持原意的前提下实现网络安全文本的自动化简化——提供了基准测试资源。其建立不仅填补了网络安全领域ATS研究的空白,也为跨学科信息传递与决策支持提供了关键工具。
当前挑战
该数据集所针对的领域问题在于网络安全文本的自动简化,其核心挑战是确保简化过程中语义的准确保留。现有大型语言模型虽能降低文本表面复杂度,却常因误删关键细节或曲解技术术语而导致信息失真,这尤其在漏洞描述等高风险语境中可能引发误导性后果。构建过程中的挑战则体现在数据集的创建与评估环节:一方面,CVE描述中混杂的非自然语言内容需经人工清理以符合研究范围;另一方面,缺乏可靠的自动化评估指标使得人类专家评估成为必要,但专家与非专业受众在可理解性与语义保真度上的认知差异,又为评估体系的客观性带来了复杂性。
常用场景
经典使用场景
在网络安全领域,技术文档的复杂性往往成为非专业人士理解漏洞信息的障碍。简化CVE描述测试数据集的核心应用场景在于评估大型语言模型在自动文本简化任务中的表现,特别是针对通用漏洞与暴露描述这一专业文本类型。该数据集通过提供经过人工评估的简化版本,为研究人员构建了基准测试环境,用于衡量模型在保持原意的前提下降低文本阅读难度的能力。
解决学术问题
该数据集主要解决了自动文本简化在网络安全领域缺乏可靠评估基准的学术问题。传统文本简化研究多集中于医学、科学等领域,而网络安全文本具有动态变化和技术密集的特性,其简化过程需要兼顾专业术语的准确解释与关键信息的完整保留。通过引入人工专家评估环节,数据集为衡量简化模型的事实保持性与可理解性提供了实证依据,推动了跨领域自然语言处理技术的发展。
衍生相关工作
该数据集的建立催生了多项基于检索增强生成技术的文本简化研究。例如采用Gemma模型结合网络安全术语数据库的智能体系统,通过提取漏洞描述中的关键实体并注入词典解释,显著提升了简化文本的语义保持度。相关研究进一步探索了文档级简化评估指标D-SARI在专业领域的适应性,并为构建人类反馈循环的交互式简化系统提供了方法论基础。
以上内容由遇见数据集搜集并总结生成



