CTISum

Name: CTISum
Creator: 中关村实验室
Published: 2024-08-13 10:25:16
License: 暂无描述

arXiv2024-08-13 更新2024-08-15 收录

下载链接：

https://github.com/blackorbird/APT_REPORT

下载链接

链接失效反馈

官方服务：

资源简介：

CTISum是由中关村实验室创建的一个新的网络威胁情报摘要基准数据集，旨在解决网络安全领域中自动生成简洁准确的情报摘要的挑战。该数据集包含1,345份文档和相应的摘要，平均文档长度约为2,865字。数据集的创建过程包括多阶段注释流水线，利用大型语言模型（LLMs）辅助数据收集、解析和清洗、提示模式设计以及情报摘要生成。CTISum不仅用于一般的CTI摘要任务，还特别关注攻击过程的细粒度摘要，帮助防御者快速理解攻击行为并评估风险。

提供机构：

中关村实验室

创建时间：

2024-08-13

搜集汇总

数据集介绍

构建方式

CTISum数据集的构建方式主要分为四个阶段：数据收集、解析与清理、提示模式设计以及情报摘要。首先，从开源报告、威胁百科和安全公司报告等多个来源收集数据，确保数据集的多样性和覆盖范围。然后，通过解析PDF文件并提取可读文本，手动清理和过滤数据以获得高质量输入。接下来，设计详细的提示模式来引导大型语言模型（LLMs）生成候选摘要。最后，将手动标注过程转变为对模型生成结果的排序和分类，由领域专家审查和排序输出，以获得最终的金标准摘要。

特点

CTISum数据集的特点主要体现在以下几个方面：1) 平均文档长度约为2865字，远超传统深度学习模型处理长度限制，对模型处理长文本的能力提出了挑战。2) 文档到摘要的压缩比高达14.32，要求系统能够在有限的文字中精确捕获最相关的信息。3) 除了情报摘要任务（CTIS）外，还包含了一个细粒度的子任务——攻击过程摘要（APS），要求系统能够捕捉CTI报告中描述的攻击过程的细节。4) 数据集包含1345篇文档及其对应的摘要，涵盖了2016年至2023年的数据。

使用方法

使用CTISum数据集的方法主要包括：1) 数据预处理：收集、解析和清理数据，确保数据质量。2) 提示模式设计：根据任务设计不同的提示，引导LLMs生成候选摘要。3) 模型训练与评估：利用数据集对模型进行训练，并使用BERTScore和ROUGE-L等自动评估指标以及人工评估方法来评估模型性能。4) 模型改进：根据评估结果，对模型进行改进，以提高其在CTISum数据集上的性能。

背景与挑战

背景概述

随着网络安全领域的不断发展，对于网络威胁情报（Cyber Threat Intelligence, CTI）的自动摘要技术需求日益增长。CTI报告通常包含大量技术性内容，如事实、分析见解和攻击过程等，这些信息对于决策者快速识别和响应网络安全威胁至关重要。然而，由于缺乏可用的数据集，对CTI报告进行高效摘要的技术研究一直较为有限。为了解决这一难题，Peng等人于2018年提出了CTISum数据集，这是一个新的基准数据集，旨在为网络安全领域的CTI摘要任务提供支持。CTISum数据集不仅关注CTI摘要（CTIS）任务，还提出了一个新颖的细粒度子任务——攻击过程摘要（APS），以便防御者能够快速了解报告中的攻击行为，评估风险并识别安全漏洞。该数据集的创建涉及从不同来源收集CTI数据，并设计了一个多阶段的注释流程来确保数据的质量。CTISum的提出，填补了网络安全领域CTI摘要数据集的空白，为相关研究提供了重要的资源。

当前挑战

CTISum数据集的创建和使用面临多项挑战。首先，CTI报告的平均长度约为2865个单词，而传统的深度学习技术如GPT1、T5、BART等，在处理超过512/1024个标记的文档时能力有限。其次，文档到摘要的压缩比高达14.32和22.23，这对系统在极少的字数中捕获最相关信息的能力提出了极高的要求。此外，CTISum还包含APS子任务，要求系统能够捕捉CTI报告中描述的细粒度攻击过程。实验结果表明，现有的提取式和抽象式摘要方法在CTISum数据集上仍存在较大局限性，例如提取式方法难以从长篇复杂文档中识别关键信息，而抽象式技术则面临生成连贯且不冗余摘要的挑战。因此，开发能够有效处理CTISum数据集的摘要技术，仍然是一个开放的研究课题。

常用场景

经典使用场景

CTISum数据集主要用于网络威胁情报摘要任务，该任务要求系统从原始情报数据中生成简洁而准确的摘要。这一任务对于为决策者提供关键信息以快速检测和响应网络安全领域的网络威胁至关重要。CTISum数据集包含了对攻击过程的细粒度子任务，旨在帮助防御者评估风险、识别安全漏洞等。具体来说，CTISum数据集通过多阶段注释流程收集和注释网络威胁情报数据，并与一系列抽取式和抽象式摘要方法进行了基准测试。实验结果表明，当前最先进的模型在应用于CTISum时存在局限性，这表明自动生成网络威胁情报报告的简洁摘要仍然是一个开放的研究挑战。

衍生相关工作

CTISum数据集的创建促进了网络安全领域网络威胁情报摘要技术的发展。该数据集为开发新的摘要方法和评估基准提供了重要的资源。此外，CTISum数据集的创建也促进了领域特定摘要技术的发展，如生物医学、金融、法律等领域。这些发展有助于推动各种应用，如辅助医疗决策、生成财务报告和摘要法律文件等。

数据集最近研究