five

VulnTrain

收藏
github2025-03-10 更新2025-02-27 收录
下载链接:
https://github.com/vulnerability-lookup/VulnTrain
下载链接
链接失效反馈
官方服务:
资源简介:
VulnTrain是一个用于生成多样化的数据集和模型的工具,这些数据集和模型是基于Vulnerability-Lookup支持的漏洞数据。它利用超过一百万条JSON记录来训练模型,并整合了vulnerability-lookup:meta容器中的数据,包括vulnrichment和Fraunhofer FKIE等增强模型质量的丰富信息源。

VulnTrain is a tool for generating diverse datasets and models based on vulnerability data supported by Vulnerability-Lookup. It leverages over one million JSON records for model training, and integrates data from the vulnerability-lookup:meta container, including rich information sources such as vulnrichment and Fraunhofer FKIE to enhance model quality.
创建时间:
2025-02-19
原始信息汇总

VulnTrain 数据集概述

数据集简介

VulnTrain 是一个用于生成多样化数据集和模型的工具,它使用 Vulnerability-Lookup 支持的所有漏洞通知源来训练模型。该工具利用超过一百万条 JSON 记录,并整合了 vulnrichment 和 Fraunhofer FKIE 等丰富数据源,以提高模型质量。

数据集来源

  • 数据来源:Vulnerability-Lookup 支持的漏洞通知源
  • 数据类型:JSON 格式的漏洞记录

数据集组成

  • 记录数量:超过一百万条
  • 特征字段:包括 id, title, description, cpes, cvss_v4_0, cvss_v3_1, cvss_v3_0, cvss_v2_0 等

使用方式

  • 安装 VulnTrain:使用 pipx install VulnTrain 命令
  • 数据集生成:使用 vulntrain-dataset-generation 命令生成数据集
  • 模型训练:使用 vulntrain-train-description-generationvulntrain-train-classification 命令进行文本生成和分类模型的训练
  • 模型验证:使用 vulntrain-validate-text-generation 命令验证文本生成模型

训练模型

  • 支持模型:gpt2 和 distilbert-base-uncased
  • 训练目标:文本生成和漏洞严重性分类

授权许可

  • 授权协议:GNU General Public License version 3
  • 版权信息:Computer Incident Response Center Luxembourg (CIRCL) 和 Cédric Bonhomme
搜集汇总
数据集介绍
main_image_url
构建方式
Vulnerability-Lookup 数据集通过整合Vulnerability-Lookup支持的各类漏洞公告源,构建了包含超过一百万条JSON记录的数据集。该数据集进一步融合了来自vulnerability-lookup:meta容器的丰富数据,如vulnrichment和Fraunhofer FKIE的数据,以提升模型质量。
使用方法
用户可以通过pipx工具安装VulnTrain,使用其提供的命令进行数据集生成、模型训练和模型验证。数据集生成时,用户可以选择不同的数据源和数量;模型训练支持文本生成和漏洞严重性分类;模型验证则可通过输入提示文本,检验文本生成模型的效果。
背景与挑战
背景概述
Vulnerability-Lookup 数据集是一款基于漏洞数据的工具,旨在生成多样化的数据集和模型。该数据集创建于近年来,由Computer Incident Response Center Luxembourg (CIRCL)及Cédric Bonhomme共同维护。其主要利用Vulnerability-Lookup支持的多种漏洞通知源,结合vulnrichment和Fraunhofer FKIE等增强数据,来训练模型,提升模型质量。该数据集包含超过一百万条JSON记录,对漏洞研究领域具有显著影响。
当前挑战
在研究领域,Vulnerability-Lookup 数据集面临的挑战主要包括:如何有效地处理和利用大量漏洞数据,确保模型的泛化能力和鲁棒性;在构建过程中,如何整合不同来源的数据,并处理数据的不完整性和异质性。此外,数据集构建中的数据清洗、标注一致性以及模型训练中的过拟合问题也是当前研究的挑战之一。
常用场景
经典使用场景
Vulnerability-Lookup 数据集是一项利用Vulnerability-Lookup工具生成的多样化数据集和模型的工具,其经典使用场景主要在于为文本生成和漏洞严重性分类任务提供训练数据。通过集成超过一百万条JSON格式的漏洞数据,该数据集能够支持构建用于生成漏洞描述的模型,以及基于CVSS评分对漏洞严重性进行分类的模型。
解决学术问题
该数据集解决了在网络安全领域中,如何有效利用漏洞数据训练模型以自动生成漏洞描述和进行严重性分类的问题。它不仅提高了模型训练的效率,而且通过引入元数据丰富了模型的质量,对于学术研究中提升漏洞管理的自动化水平和准确度具有重要的意义和影响。
实际应用
在实际应用中,Vulnerability-Lookup 数据集可以协助安全专家快速识别和响应安全漏洞,自动化生成漏洞报告,以及为漏洞数据库提供准确的分类信息。这些应用场景在提升网络安全防护能力方面发挥着至关重要的作用。
数据集最近研究
最新研究方向
Vulnerability-Lookup 数据集近期研究方向主要集中于利用其丰富的漏洞数据,通过VulnTrain工具生成多样化的数据集和模型,以训练文本生成和分类模型。文本生成模型旨在辅助编写漏洞描述,而分类模型则致力于根据严重性对漏洞进行分类。这些研究不仅提高了漏洞处理的自动化水平,也增强了信息安全领域内对漏洞响应的能力,对促进网络安全具有重要意义。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作