SEVENLLM-Instruct

Name: SEVENLLM-Instruct
Creator: 北京航空航天大学复杂与关键软件环境国家重点实验室
Published: 2024-05-06 21:17:43
License: 暂无描述

arXiv2024-05-06 更新2024-06-21 收录

下载链接：

https://github.com/CSJianYang/SEvenLLM

下载链接

链接失效反馈

官方服务：

资源简介：

SEVENLLM-Instruct是由北京航空航天大学国家重点实验室创建的高质量双语指令数据集，包含85000个样本，用于训练大型语言模型以增强网络安全事件分析能力。该数据集通过爬取网络安全网站的原始文本构建，采用Select-Instruct方法生成监督学习数据。SEVENLLM-Instruct旨在解决网络安全领域数据稀缺问题，通过多任务学习提升模型在威胁识别和响应方面的性能，广泛应用于网络安全事件的自动化和智能化处理。

SEVENLLM-Instruct is a high-quality bilingual instruction dataset developed by the State Key Laboratory of Beihang University, which contains 85,000 samples. It is designed to train large language models (LLMs) to enhance their capabilities in cybersecurity incident analysis. This dataset is constructed by crawling raw text from cybersecurity websites, and adopts the Select-Instruct method to generate supervised learning data. SEVENLLM-Instruct aims to address the data scarcity issue in the cybersecurity domain, improve the model's performance in threat identification and response via multi-task learning, and is widely applied to the automated and intelligent processing of cybersecurity incidents.

提供机构：

北京航空航天大学复杂与关键软件环境国家重点实验室

创建时间：

2024-05-06

搜集汇总

数据集介绍

构建方式

SEVENLLM-Instruct 数据集的构建，首先从网络安全网站爬取了大量的中英文网络安全事件报告，共计超过一万份。这些报告涵盖了从 2004 年至今的网络安全事件，数据来源包括安全厂商的官方报告和互联网公司的发布新闻。为了确保数据质量，研究人员采用了启发式规则剔除了低质量的数据，并最终筛选出 6706 份英文报告和 1779 份中文报告作为数据集的基础。接着，研究人员利用大型语言模型 (LLM) 生成潜在的任务，并由人类专家进行修正，形成了一个任务池。对于网络安全相关文本，LLM 会从任务池中选择合适的任务，并生成相应的查询和答案，从而构建了监督学习数据集 SEVENLLM-Instruct。

使用方法

SEVENLLM-Instruct 数据集可以用于训练网络安全领域的大型语言模型 (LLM)，例如 Llama 和 Qwen。研究人员可以利用该数据集对 LLM 进行多任务学习，从而提升 LLM 在网络安全事件分析方面的能力。此外，SEVENLLM-Instruct 数据集还可以用于构建网络安全领域的评估基准，例如 SEVENLLM-Bench，从而评估 LLM 在网络安全领域的性能。

背景与挑战

背景概述

在网络安全领域，随着网络威胁事件的日益复杂和频繁，网络安全专业人员面临着巨大的挑战。为了应对这一挑战，网络安全情报（CTI）应运而生，旨在提供对不断演变的网络威胁的洞察，从而帮助理解并对抗这些威胁。然而，传统的CTI方法往往缺乏必要的背景知识，难以进行有效的调查。大型语言模型（LLM）的出现为理解和生成语言内容的能力带来了突破性的转变。SEVENLLM-Instruct数据集正是在这样的背景下产生的，它旨在评估、激发和增强大型语言模型在网络安全事件分析方面的能力。该数据集由北京航空航天大学复杂与关键软件环境国家重点实验室的研究人员于2024年5月创建，旨在通过构建一个高质量的网络安全事件分析数据集SEVENLLM-Instruct，并基于该数据集训练针对网络安全情报的定制大型语言模型SEVENLLM，从而提高网络安全事件分析和响应能力。

当前挑战

SEVENLLM-Instruct数据集面临着以下挑战：1)缺乏高质量的、特定任务的数据集，这限制了网络安全事件分析的能力；2)构建过程中需要解决如何将原始网络安全文本转换为监督学习数据集的问题，包括如何选择合适的任务和如何生成相应的查询和回答；3)如何评估针对网络安全情报的定制大型语言模型SEVENLLM的性能，并建立一个全面的评估基准SEVENLLM-Bench，以便能够有效地评估LLMs在网络安全情报方面的性能。

常用场景

经典使用场景

SEVENLLM-Instruct 数据集旨在解决网络安全事件分析中缺乏高质量、特定任务的训练数据的问题。该数据集通过爬取网络安全事件报告，构建了一个包含 27 个精心设计任务的中文-英文双语指令语料库。这些任务涵盖了网络安全事件分析中的理解任务和生成任务，例如实体识别、关系抽取、事件分类、攻击工具识别等。SEVENLLM-Instruct 数据集可用于训练网络安全大型语言模型 (LLM)，以增强对网络安全事件的自动分析和响应能力。

解决学术问题

SEVENLLM-Instruct 数据集解决了网络安全事件分析中缺乏高质量、特定任务的训练数据的问题。传统的网络安全事件分析方法往往缺乏必要的背景知识，而通用的大型语言模型在处理网络安全事件时也存在局限性。SEVENLLM-Instruct 数据集为网络安全 LLM 的训练提供了高质量的数据，并涵盖了网络安全事件分析中的多个方面，从而提高了 LLM 在网络安全事件分析中的性能。

实际应用

SEVENLLM-Instruct 数据集可用于训练网络安全 LLM，以增强对网络安全事件的自动分析和响应能力。这些 LLM 可用于自动化处理网络安全事件，例如识别攻击者、分析攻击手段、评估风险、生成安全警报等。此外，SEVENLLM-Instruct 数据集还可用于开发网络安全工具，例如网络威胁情报平台、入侵检测系统等。

数据集最近研究