CVE-llm_dataset
收藏CVE-llm_dataset
数据提取
- 数据集从NVD列表下载CVE数据库,并使用
cve_dataset_2.py和cve_dataset.py处理,生成适用于llama和openai GPT的不同数据集。 - CVE json文件按年份和编号组织,如1999年和2023年的CVE文件。
- 程序遍历这些文件夹,提取数据并整理成适用于微调过程的格式。
llama2模型数据集
-
数据集格式如下: json { "instruction": "Explain CVE-1999-0001", "input": "Explain the vulnerability: CVE-1999-0001", "output": "ip_input.c in BSD-derived TCP/IP implementations allows remote attackers to cause a denial of service (crash or hang) via crafted packets. Affected Products: n/a References: [{tags: [x_refsource_CONFIRM], url: http://www.openbsd.org/errata23.html#tcpfix}, {name: 5707, tags: [vdb-entry, x_refsource_OSVDB], url: http://www.osvdb.org/5707}] CVE State: PUBLISHED" }
-
instruction:指示AI处理数据的方式。 -
input:用户输入的主要查询或数据。 -
output:定义AI生成答案的格式。
OpenAI微调数据集
-
数据集格式如下: json { "messages": [ { "role": "system", "content": "CVE Vulnerability Information" }, { "role": "user", "content": "Explain the vulnerability: CVE-1999-0001" }, { "role": "assistant", "content": "ip_input.c in BSD-derived TCP/IP implementations allows remote attackers to cause a denial of service (crash or hang) via crafted packets. Affected Products: n/a References: [{tags: [x_refsource_CONFIRM], url: http://www.openbsd.org/errata23.html#tcpfix}, {name: 5707, tags: [vdb-entry, x_refsource_OSVDB], url: http://www.osvdb.org/5707}] CVE State: PUBLISHED" } ] }
-
定义AI和用户的角色及内容,核心工作类似于llama或其他文本生成模型数据集。
OpenAI价格计算
price-openai.py文件计算数据集的总令牌数,并进行必要的计算以确定训练自定义GPT模型的总体价格。tokencount.py文件主要计算数据集中存在的总令牌数。




