Synthetic benchmark built from public CVE descriptions and LLM-generated payloads

Name: Synthetic benchmark built from public CVE descriptions and LLM-generated payloads
Creator: 都灵理工大学; 都灵大学; 华为巴黎研究中心
Published: 2026-03-21 01:57:00
License: 暂无描述

arXiv2026-03-21 更新2026-03-24 收录

下载链接：

https://github.com/SmartData-Polito/LLM_semantic_alignment

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是由华为巴黎研究中心、都灵理工大学等机构联合构建的网络安全多模态基准，包含11,000条平衡样本，覆盖11类HTTP攻击载荷。数据来源于公开CVE描述和LLM生成的模拟攻击流量，旨在解决传统威胁分类模型在零日攻击场景下的泛化问题。通过对比学习框架将文本模态的语义知识迁移至载荷分类任务，为研究跨模态安全知识迁移提供标准化评估平台。

This dataset is a cybersecurity multimodal benchmark jointly constructed by Huawei Paris Research Center, Polytechnic University of Turin and other institutions. It comprises 11,000 balanced samples covering 11 categories of HTTP attack payloads. The dataset is sourced from public CVE descriptions and simulated attack traffic generated by Large Language Models (LLMs), with the goal of addressing the generalization issue of traditional threat classification models in zero-day attack scenarios. By adopting a contrastive learning framework to transfer semantic knowledge from the text modality to payload classification tasks, it provides a standardized evaluation platform for research on cross-modal cybersecurity knowledge transfer.

提供机构：

都灵理工大学; 都灵大学; 华为巴黎研究中心

创建时间：

2026-03-21

原始信息汇总

数据集概述

数据集名称

synthetic-security-dataset

数据集来源

本数据集包含三个独立的JSON文件，分别由以下大型语言模型生成：

gemini.json：由 Gemini 2.5 Flash 模型生成。
deepseek.json：由 DeepSeek-V3.2 模型生成。
qwen.json：由 Qwen3-Max 模型生成。

数据内容与格式

数据主题：安全相关。
数据类型：合成数据。
数据格式：JSON 文件。
文件构成：数据集由三个独立的 JSON 文件组成，每个文件对应一个特定的生成模型。

搜集汇总

数据集介绍

构建方式

在网络安全领域，数据稀缺性与模型泛化能力不足长期制约着机器学习技术的实际应用。该数据集的构建采用了创新的合成生成策略，其核心方法是从公开的漏洞描述库（如CVE）和开源攻击载荷库（如PayloadsAllTheThings）中提取初始信息。随后，研究团队利用多种大型语言模型（包括Gemini 2.5 Flash、DeepSeek-V3和Qwen3-Max），以这些公开的威胁指标为引导，通过精心设计的提示模板，生成模拟真实攻击场景的完整HTTP请求-响应对。最终，数据集包含了涵盖11种漏洞类型的11,000个平衡样本，旨在为模型提供一个可控的、分布外泛化能力的评估基准。

特点

该数据集的设计体现了网络安全研究中对可重复性与泛化能力测试的迫切需求。其显著特点在于，所有样本均通过大型语言模型合成生成，从而与任何私有操作数据集保持独立，有效避免了数据泄露和过拟合风险。数据集在类别分布上实现了人工平衡，克服了现实世界中安全数据固有的极端不平衡问题，为公平比较不同模型的性能提供了基础。更重要的是，它模拟了真实网络攻击中的多样性和复杂性，生成的载荷在头部信息、参数结构和编码方式上均呈现出丰富的变化，能够有效检验模型对未见攻击模式的识别与适应能力。

使用方法

该数据集主要服务于网络安全领域中威胁分类任务的模型评估与基准测试。在使用时，研究人员可将其作为一个独立的测试集，用于评估经过私有或公开数据训练的模型在面对合成、未见攻击模式时的泛化性能。数据集与论文中提出的SALM框架紧密结合，其评估流程遵循语义检索范式：首先利用经过对比学习对齐的文本编码器为每个漏洞类别生成一个通用的文本原型嵌入；随后，将待分类的合成载荷通过载荷编码器映射到同一语义空间；最终通过计算载荷嵌入与各类别文本原型之间的余弦距离，以最近邻原则确定其所属的漏洞类型。这种方法不仅测试了模型的分类准确性，更深入探究了其基于语义理解而非表面模式匹配进行推理的能力。

背景与挑战

背景概述

在网络安全领域，机器学习模型的泛化能力长期面临严峻挑战，模型在受控场景下表现优异，却在真实部署环境中性能骤降，这一现象被学术界称为‘可信度危机’。为系统探究此问题，意大利都灵理工大学与华为巴黎研究中心的研究团队于2026年合作构建了基于公共CVE描述与LLM生成载荷的合成基准数据集。该数据集的核心研究目标在于通过多模态对比学习框架，将数据丰富的文本模态（如漏洞描述）中的语义知识迁移至数据稀缺的载荷模态，从而提升威胁分类任务中模型对底层网络安全概念的理解，而非仅仅学习表层的统计捷径。这一工作为缓解网络安全机器学习中的泛化困境提供了新的方法论视角与可复现的评估基准。

当前挑战

该数据集旨在应对网络安全威胁分类任务中的核心挑战：模型在面临时间偏移与分布外数据时，因学习到数据表面的虚假关联（即‘捷径学习’）而导致的泛化性能严重退化。具体而言，其构建过程面临双重挑战：其一，在领域问题层面，需克服真实网络载荷数据的高噪声、多变性以及同一漏洞存在无数变体与编码方案所带来的语义模糊性，确保模型能够捕捉跨越时间与实现方式的稳定攻击语义。其二，在构建技术层面，挑战在于如何利用大型语言模型基于公开的漏洞描述与攻击指标，生成既具现实多样性又能忠实反映特定漏洞类型本质特征的合成HTTP载荷，同时需处理原始运营数据中存在的类别高度不平衡、类间语义重叠以及内部标注标准与公开分类体系不完全对齐等问题，以构建一个可用于可控泛化测试的可靠基准。

常用场景

经典使用场景

在网络安全领域，机器学习模型常因泛化能力不足而在实际部署中失效，该数据集为解决此问题提供了关键基准。其经典使用场景在于评估多模态对比学习框架在威胁分类任务中的性能，通过结合公开的CVE描述与LLM生成的载荷数据，构建了一个可控的合成测试环境。研究人员利用该数据集验证模型在时间偏移和分布外场景下的鲁棒性，从而揭示模型是否学习到了真实的网络安全语义而非表面模式。

解决学术问题

该数据集主要解决了网络安全机器学习中的泛化危机与捷径学习问题。传统模型在受限数据上容易捕捉虚假相关性，导致在真实网络环境中性能骤降。通过提供文本与载荷的多模态对齐基准，该数据集促进了从数据丰富的文本模态向数据稀缺的载荷模态的知识迁移研究。其意义在于推动模型学习底层漏洞概念，而非依赖训练集的局部特征，为构建可解释、稳健的网络安全AI系统奠定了实验基础。

衍生相关工作

该数据集衍生了一系列围绕多模态学习与网络安全泛化的经典研究。例如，基于其提出的SALM框架启发了后续工作探索更丰富的文本锚点设计，以增强跨模态对齐效果。同时，相关研究扩展了对比学习在恶意软件分类、加密流量分析等任务中的应用，并推动了开源基准生态的建设，如结合CVE知识库与生成式AI构建可复现的评估体系。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集