five

Zad

收藏
arXiv2025-04-29 更新2025-05-13 收录
下载链接:
http://arxiv.org/abs/2504.20726v1
下载链接
链接失效反馈
官方服务:
资源简介:
Zad数据集是Zad系统的重要组成部分,用于增强国家漏洞数据库(NVD)中的漏洞描述。该数据集包含100个样本,每个样本由第三方报告的增强文本和漏洞描述组成。数据集通过使用两个编码器收集和过滤补充数据来构建,并使用预训练的语言模型进行微调,以生成丰富的描述。Zad数据集的应用领域包括漏洞利用分析和安全应用,旨在提高漏洞描述的准确性和有效性。

The Zad Dataset is a critical component of the Zad system, used to augment vulnerability descriptions in the National Vulnerability Database (NVD). This dataset contains 100 samples, each composed of third-party reported enhanced text and vulnerability descriptions. The dataset is constructed by collecting and filtering supplementary data using two encoders, and fine-tuned with a pre-trained language model to generate comprehensive descriptions. Application areas of the Zad Dataset include vulnerability exploit analysis and security applications, with the goal of improving the accuracy and effectiveness of vulnerability descriptions.
提供机构:
University of Central Florida, Northeastern Illinois University, Qatar University, Ewha Womans University
创建时间:
2025-04-29
搜集汇总
数据集介绍
main_image_url
构建方式
Zad数据集的构建采用了多阶段流程,首先从国家漏洞数据库(NVD)中收集2019-2021年间的漏洞报告,通过自动化爬虫技术提取相关超链接中的第三方报告内容。随后运用两种句子编码器(USE和MPNet)对文本进行语义向量化,基于余弦相似度阈值(USE:0.6-0.9,MPNet:0.7-0.9)筛选相关段落。为提高数据质量,采用词频分析和多样性过滤机制,去除冗余内容并确保段落间的语义差异性,最终形成包含原始漏洞描述与增强文本的配对数据集。
特点
该数据集的核心特点体现在三个方面:首先,通过融合NVD官方描述与第三方技术报告,显著提升了漏洞信息的完整性和上下文丰富度;其次,采用双重编码器策略(USE和MPNet)确保语义表征的准确性,其中USE的DAN架构在效率与精度间取得平衡;最后,数据集经过严格的质量控制流程,包括相似段落去重、停用词过滤以及长度标准化处理,使得最终生成的增强描述平均长度控制在250词以内,同时保持关键漏洞细节的完整性。
使用方法
该数据集主要支持基于Transformer的序列到序列模型训练,用户可通过微调BART或T5等预训练模型实现漏洞描述的自动化增强。具体使用时,建议将增强文本截断至500词以内以获得最佳效果,并采用束搜索(beam size=2)进行解码。评估阶段可结合ROUGE指标与人工评估体系(流畅性、完整性、正确性、可理解性)综合衡量生成质量。对于安全分析场景,建议优先使用USE编码器构建的子集,其在保持语义准确性方面表现最优。
背景与挑战
背景概述
Zad数据集由Hattan Althebeiti、Mohammed Alkinoon、Manar Mohaisen、Saeed Salem、DaeHun Nyang和David Mohaisen等研究人员于2025年提出,旨在解决国家漏洞数据库(NVD)中漏洞描述信息不足的问题。该数据集通过整合外部资源,利用自然语言处理技术生成更全面、连贯的漏洞描述,从而提升漏洞信息的质量和可用性。Zad的提出填补了漏洞描述领域的技术空白,为网络安全研究提供了重要的数据支持。
当前挑战
Zad数据集面临的挑战主要包括两方面:领域问题的挑战和构建过程的挑战。在领域问题方面,Zad需要解决漏洞描述信息不足、不一致和过时的问题,这对模型的语义理解和生成能力提出了较高要求。在构建过程中,挑战包括如何有效筛选和整合来自不同来源的补充数据,以及如何设计评估指标来确保生成的描述既准确又易于理解。此外,数据集的构建还需要处理文本长度和结构的多样性,这对模型的标准化和泛化能力提出了挑战。
常用场景
经典使用场景
在网络安全领域,Zad数据集主要用于增强漏洞报告的描述信息。通过整合第三方资源,Zad能够为NVD(国家漏洞数据库)中的漏洞条目提供更为详尽和上下文丰富的描述。这一过程不仅提升了漏洞信息的可读性,还为安全分析师和研究人员提供了更全面的背景信息,从而帮助他们更准确地评估漏洞的严重性和潜在影响。
解决学术问题
Zad数据集解决了网络安全研究中一个关键问题:漏洞描述的不足和不一致性。传统漏洞数据库中的描述往往过于简略或缺乏必要的技术细节,这限制了研究人员对漏洞的深入理解。Zad通过自动化和增强的摘要生成技术,填补了这一信息空白,使得漏洞分析更加全面和准确。此外,Zad还通过引入外部资源,提升了漏洞描述的时效性和相关性。
衍生相关工作
Zad数据集的推出催生了一系列相关研究和工作。例如,基于Zad的漏洞描述增强技术被应用于自动化漏洞分类系统,进一步提高了分类的精确度。此外,Zad的方法论还被扩展到其他安全领域,如恶意软件分析和隐私政策分类。这些衍生工作不仅验证了Zad的有效性,还推动了自然语言处理技术在网络安全中的更广泛应用。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作