CVE-llm_dataset

github2024-04-22 更新2024-05-31 收录

下载链接：

https://github.com/morpheuslord/CVE-llm_dataset

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集旨在训练一个专注于CVE相关输入和输出的LLM模型。数据提取自CVE数据库，通过特定的程序处理成适合模型训练的格式。

This dataset is designed to train an LLM model focused on CVE-related inputs and outputs. The data is extracted from the CVE database and processed into a format suitable for model training through specific programs.

创建时间：

2023-08-15

原始信息汇总

CVE-llm_dataset

数据提取

数据集从NVD列表下载CVE数据库，并使用cve_dataset_2.py和cve_dataset.py处理，生成适用于llama和openai GPT的不同数据集。
CVE json文件按年份和编号组织，如1999年和2023年的CVE文件。
程序遍历这些文件夹，提取数据并整理成适用于微调过程的格式。

llama2模型数据集

数据集格式如下： json { "instruction": "Explain CVE-1999-0001", "input": "Explain the vulnerability: CVE-1999-0001", "output": "ip_input.c in BSD-derived TCP/IP implementations allows remote attackers to cause a denial of service (crash or hang) via crafted packets. Affected Products: n/a References: [{tags: [x_refsource_CONFIRM], url: http://www.openbsd.org/errata23.html#tcpfix}, {name: 5707, tags: [vdb-entry, x_refsource_OSVDB], url: http://www.osvdb.org/5707}] CVE State: PUBLISHED" }
instruction：指示AI处理数据的方式。
input：用户输入的主要查询或数据。
output：定义AI生成答案的格式。

OpenAI微调数据集

数据集格式如下： json { "messages": [ { "role": "system", "content": "CVE Vulnerability Information" }, { "role": "user", "content": "Explain the vulnerability: CVE-1999-0001" }, { "role": "assistant", "content": "ip_input.c in BSD-derived TCP/IP implementations allows remote attackers to cause a denial of service (crash or hang) via crafted packets. Affected Products: n/a References: [{tags: [x_refsource_CONFIRM], url: http://www.openbsd.org/errata23.html#tcpfix}, {name: 5707, tags: [vdb-entry, x_refsource_OSVDB], url: http://www.osvdb.org/5707}] CVE State: PUBLISHED" } ] }
定义AI和用户的角色及内容，核心工作类似于llama或其他文本生成模型数据集。

OpenAI价格计算

price-openai.py文件计算数据集的总令牌数，并进行必要的计算以确定训练自定义GPT模型的总体价格。
tokencount.py文件主要计算数据集中存在的总令牌数。

搜集汇总

数据集介绍

构建方式

CVE-llm_dataset的构建基于从NVD（国家漏洞数据库）下载的CVE数据，通过`cve_dataset_2.py`和`cve_dataset.py`脚本对这些数据进行处理，生成适用于不同模型（如Llama和OpenAI GPT）的训练数据集。数据集中的CVE文件按年份和编号分类存储，程序遍历这些文件夹，提取并整理数据，以便进行微调训练。

特点

该数据集的显著特点在于其针对CVE（Common Vulnerabilities and Exposures）的专门化设计，旨在为大型语言模型（LLM）提供精确的输入和输出。数据集分为两种格式，分别适用于Llama2和OpenAI的微调，每种格式都包含指令、输入和输出，确保模型能够根据用户查询生成准确的CVE相关信息。

使用方法

使用CVE-llm_dataset时，用户可以根据需求选择适合的模型格式进行微调。对于Llama2模型，数据集提供指令、输入和输出格式；对于OpenAI模型，数据集则定义了角色和消息格式。通过这些预定义的格式，用户可以高效地训练模型，使其能够准确解析和响应CVE相关的查询。

背景与挑战

背景概述

CVE-llm_dataset 是由 Chiranjeevi G 于 2024 年创建的，旨在为大型语言模型（LLM）提供专门针对 CVE（Common Vulnerabilities and Exposures）的输入和输出数据集。该数据集的核心研究问题是如何通过训练模型，使其能够准确解析和生成与 CVE 相关的信息，从而提升网络安全领域的自动化分析能力。数据集的构建基于从 NVD（National Vulnerability Database）下载的 CVE 数据库，并通过特定的脚本将数据转换为适用于 Llama 和 OpenAI GPT 模型的格式。该数据集的发布对提升网络安全领域的自动化漏洞分析和响应能力具有重要意义。

当前挑战

CVE-llm_dataset 面临的挑战主要集中在数据提取和模型训练两个方面。首先，数据提取过程中需要从庞大的 CVE 数据库中筛选出有用的信息，并将其转换为适合不同模型（如 Llama 和 OpenAI GPT）的格式，这一过程涉及复杂的文件结构处理和数据清洗。其次，在模型训练方面，如何确保模型能够准确理解和生成与 CVE 相关的信息，尤其是在处理复杂的漏洞描述和多样的参考文献时，仍是一个技术难题。此外，数据集的规模和质量直接影响模型的训练效果，如何在有限的资源下优化数据集以提高模型的准确性和实用性，也是当前亟待解决的问题。

常用场景

经典使用场景

CVE-llm_dataset的经典使用场景主要集中在训练大型语言模型（LLM）以处理与CVE（Common Vulnerabilities and Exposures）相关的输入和输出。该数据集通过提取NVD（National Vulnerability Database）中的CVE信息，并将其组织成适合LLM微调的格式，使得模型能够解析和生成与CVE相关的详细信息。例如，模型可以接收用户输入的CVE编号，并生成该漏洞的详细描述、受影响的产品、参考文献以及漏洞状态等信息。

实际应用

CVE-llm_dataset的实际应用场景广泛，主要体现在网络安全管理和自动化漏洞分析中。例如，企业可以使用该数据集训练的模型来自动化识别和评估其系统中的CVE漏洞，从而及时采取措施防止潜在的安全威胁。此外，安全研究人员可以利用该模型快速获取CVE的详细信息，以便进行深入的漏洞分析和研究。该数据集的应用不仅提高了网络安全管理的效率，还为自动化漏洞分析提供了强有力的工具支持。

衍生相关工作

CVE-llm_dataset的推出催生了一系列相关的经典工作，特别是在网络安全和自然语言处理（NLP）领域。例如，研究人员基于该数据集开发了能够自动生成CVE报告的LLM模型，这些模型在漏洞披露和安全预警系统中得到了广泛应用。此外，该数据集还激发了对CVE数据结构化处理和信息提取技术的进一步研究，推动了NLP技术在网络安全领域的深度应用。这些衍生工作不仅丰富了CVE数据的利用方式，还为网络安全领域的技术创新提供了新的思路。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集