VulnTrain

github2025-03-10 更新2025-02-27 收录

下载链接：

https://github.com/vulnerability-lookup/VulnTrain

下载链接

链接失效反馈

官方服务：

资源简介：

VulnTrain是一个用于生成多样化的数据集和模型的工具，这些数据集和模型是基于Vulnerability-Lookup支持的漏洞数据。它利用超过一百万条JSON记录来训练模型，并整合了vulnerability-lookup:meta容器中的数据，包括vulnrichment和Fraunhofer FKIE等增强模型质量的丰富信息源。

VulnTrain is a tool for generating diverse datasets and models based on vulnerability data supported by Vulnerability-Lookup. It leverages over one million JSON records for model training, and integrates data from the vulnerability-lookup:meta container, including rich information sources such as vulnrichment and Fraunhofer FKIE to enhance model quality.

创建时间：

2025-02-19

原始信息汇总

VulnTrain 数据集概述

数据集简介

VulnTrain 是一个用于生成多样化数据集和模型的工具，它使用 Vulnerability-Lookup 支持的所有漏洞通知源来训练模型。该工具利用超过一百万条 JSON 记录，并整合了 vulnrichment 和 Fraunhofer FKIE 等丰富数据源，以提高模型质量。

数据集来源

数据来源：Vulnerability-Lookup 支持的漏洞通知源
数据类型：JSON 格式的漏洞记录

数据集组成

记录数量：超过一百万条
特征字段：包括 id, title, description, cpes, cvss_v4_0, cvss_v3_1, cvss_v3_0, cvss_v2_0 等

使用方式

安装 VulnTrain：使用 pipx install VulnTrain 命令
数据集生成：使用 vulntrain-dataset-generation 命令生成数据集
模型训练：使用 vulntrain-train-description-generation 和 vulntrain-train-classification 命令进行文本生成和分类模型的训练
模型验证：使用 vulntrain-validate-text-generation 命令验证文本生成模型

训练模型

支持模型：gpt2 和 distilbert-base-uncased
训练目标：文本生成和漏洞严重性分类

授权许可

授权协议：GNU General Public License version 3
版权信息：Computer Incident Response Center Luxembourg (CIRCL) 和 Cédric Bonhomme

搜集汇总

数据集介绍

构建方式

Vulnerability-Lookup 数据集通过整合Vulnerability-Lookup支持的各类漏洞公告源，构建了包含超过一百万条JSON记录的数据集。该数据集进一步融合了来自vulnerability-lookup:meta容器的丰富数据，如vulnrichment和Fraunhofer FKIE的数据，以提升模型质量。

使用方法

用户可以通过pipx工具安装VulnTrain，使用其提供的命令进行数据集生成、模型训练和模型验证。数据集生成时，用户可以选择不同的数据源和数量；模型训练支持文本生成和漏洞严重性分类；模型验证则可通过输入提示文本，检验文本生成模型的效果。

背景与挑战

背景概述

Vulnerability-Lookup 数据集是一款基于漏洞数据的工具，旨在生成多样化的数据集和模型。该数据集创建于近年来，由Computer Incident Response Center Luxembourg (CIRCL)及Cédric Bonhomme共同维护。其主要利用Vulnerability-Lookup支持的多种漏洞通知源，结合vulnrichment和Fraunhofer FKIE等增强数据，来训练模型，提升模型质量。该数据集包含超过一百万条JSON记录，对漏洞研究领域具有显著影响。

当前挑战

在研究领域，Vulnerability-Lookup 数据集面临的挑战主要包括：如何有效地处理和利用大量漏洞数据，确保模型的泛化能力和鲁棒性；在构建过程中，如何整合不同来源的数据，并处理数据的不完整性和异质性。此外，数据集构建中的数据清洗、标注一致性以及模型训练中的过拟合问题也是当前研究的挑战之一。

常用场景

经典使用场景

Vulnerability-Lookup 数据集是一项利用Vulnerability-Lookup工具生成的多样化数据集和模型的工具，其经典使用场景主要在于为文本生成和漏洞严重性分类任务提供训练数据。通过集成超过一百万条JSON格式的漏洞数据，该数据集能够支持构建用于生成漏洞描述的模型，以及基于CVSS评分对漏洞严重性进行分类的模型。

解决学术问题

该数据集解决了在网络安全领域中，如何有效利用漏洞数据训练模型以自动生成漏洞描述和进行严重性分类的问题。它不仅提高了模型训练的效率，而且通过引入元数据丰富了模型的质量，对于学术研究中提升漏洞管理的自动化水平和准确度具有重要的意义和影响。

实际应用

在实际应用中，Vulnerability-Lookup 数据集可以协助安全专家快速识别和响应安全漏洞，自动化生成漏洞报告，以及为漏洞数据库提供准确的分类信息。这些应用场景在提升网络安全防护能力方面发挥着至关重要的作用。

数据集最近研究