LLM-TIKG-dataset

github2023-11-30 更新2024-05-31 收录

下载链接：

https://github.com/Netsec-SJTU/LLM-TIKG-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

一个用于威胁情报知识图谱构建的标记数据集。在此数据集中，非结构化的威胁情报文本被分析以提取其中的实体和关系。

A labeled dataset for the construction of threat intelligence knowledge graphs. In this dataset, unstructured threat intelligence texts are analyzed to extract entities and relationships.

创建时间：

2023-11-29

原始信息汇总

LLM-TIKG-dataset 概述

数据集用途

用于威胁情报知识图谱构建的标记数据集。该数据集通过对非结构化威胁情报文本进行分析，提取其中的实体和关系。

数据生成

数据标注利用了GPT3.5的小样本学习能力，通过特定的提示进行。尽管GPT3.5具有强大的生成能力，但直接生成的标注结果仍存在错误。因此，我们手动校正了部分由GPT生成的标注数据，这些数据用于知识图谱的构建。

数据结构

数据集结构基于lora-based指令调优，包含指令、输入和输出三个部分。其中，“指令”为报告的句子，“输入”为空，“输出”包含信息提取的结果，包括实体及其类型以及实体间的关系。具体结构示例如下：

dataStructure

搜集汇总

数据集介绍

构建方式

LLM-TIKG-dataset的构建过程充分利用了GPT3.5的少样本学习能力，通过特定的提示词进行数据标注。尽管GPT3.5在生成标注结果方面表现出色，但直接生成的结果仍存在一定误差。因此，研究团队对部分由GPT生成的标注数据进行了人工校正，以确保知识图谱构建的准确性。

特点

该数据集的特点在于其结构化的信息提取方式，采用基于lora的指令调优方法，数据集结构包含指令、输入和输出三部分。其中，指令部分为报告句子，输入部分为空，输出部分则包含信息提取结果，涵盖实体及其类型以及实体间的关系。这种结构设计使得数据集在威胁情报知识图谱的构建中具有高度的实用性和可操作性。

使用方法

LLM-TIKG-dataset的使用方法主要围绕其结构化信息提取的特点展开。用户可以通过解析数据集中的指令和输出部分，获取威胁情报文本中的关键实体及其关系。这些信息可直接用于知识图谱的构建，或作为进一步分析和研究的输入数据。数据集的结构设计使得其在处理复杂威胁情报文本时，能够提供清晰且易于理解的信息提取结果。

背景与挑战

背景概述

LLM-TIKG-dataset是一个专门用于构建威胁情报知识图谱的标注数据集，由研究人员利用GPT3.5的少样本学习能力进行数据标注。该数据集的核心研究问题在于从非结构化的威胁情报文本中提取实体及其关系，进而支持知识图谱的构建。随着网络安全威胁的日益复杂化，传统的威胁情报分析方法已难以应对海量且多样化的数据。LLM-TIKG-dataset的创建为自动化威胁情报分析提供了新的可能性，推动了网络安全领域的研究与应用。该数据集的影响力主要体现在其能够显著提升威胁情报知识图谱的构建效率与准确性，为后续的威胁检测与响应提供了坚实的基础。

当前挑战

LLM-TIKG-dataset在构建过程中面临多重挑战。首先，尽管GPT3.5具备强大的生成能力，但其直接生成的标注结果仍存在一定误差，需要人工校正以确保数据质量。其次，威胁情报文本的多样性和复杂性使得实体与关系的提取任务极具挑战性，尤其是在处理模糊或隐含信息时。此外，数据集的结构设计需兼顾指令调优的需求，如何在有限的标注数据下实现高效的知识图谱构建也是一个亟待解决的问题。这些挑战不仅影响了数据集的构建效率，也对后续的模型训练与应用提出了更高的要求。

常用场景

经典使用场景

LLM-TIKG-dataset主要用于构建威胁情报知识图谱，通过对非结构化威胁情报文本的分析，提取其中的实体及其关系。这一过程不仅涉及文本的深度理解，还包括对实体类型和关系的精确标注，为后续的知识图谱构建提供高质量的数据支持。

衍生相关工作

基于LLM-TIKG-dataset，研究者们开发了多种威胁情报分析工具和系统，如自动化的威胁情报提取平台和智能化的安全预警系统。这些工作不仅推动了威胁情报领域的技术进步，也为网络安全实践提供了新的解决方案。

数据集最近研究