AttackSeqBench
收藏arXiv2025-03-05 更新2025-03-07 收录
下载链接:
https://github.com/Javiery3889/AttackSeqBench
下载链接
链接失效反馈官方服务:
资源简介:
AttackSeqBench是一个针对评估大型语言模型在理解网络安全威胁情报报告中攻击序列方面的基准数据集。该数据集由新加坡国立大学构建,包含了408个经过精心构建的攻击序列,这些序列基于真实世界的CTI报告。数据集通过自动化数据生成管道构建,包括攻击序列构建、问题生成和自我完善三个阶段,旨在系统评估LLM在分析攻击序列方面的能力,并推动其在现实世界网络安全操作中的应用。
AttackSeqBench is a benchmark dataset dedicated to evaluating large language models' (LLMs') capability in comprehending attack sequences from cybersecurity threat intelligence (CTI) reports. Constructed by the National University of Singapore, this dataset comprises 408 meticulously curated attack sequences sourced from real-world CTI reports. It is developed through an automated data generation pipeline encompassing three phases: attack sequence construction, question generation, and self-refinement. Its core objective is to systematically assess LLMs' ability to analyze attack sequences and advance their practical applications in real-world cybersecurity operations.
提供机构:
新加坡国立大学
创建时间:
2025-03-05
搜集汇总
数据集介绍

构建方式
AttackSeqBench 数据集的构建方式采用了自动化流程,首先从真实的 CTI 报告中提取攻击序列,然后基于这些序列生成 QA 数据集。数据集的生成包括三个主要阶段:攻击序列构建、问题生成和自我完善。在攻击序列构建阶段,从 408 个经过筛选的 CTI 报告中提取了相关的 TTP 信息,并排除了那些无法详细描述攻击模式的报告。在问题生成阶段,利用 LLM 的能力,根据每个 TTP 生成问题,并提供相关背景知识作为上下文。在自我完善阶段,使用 GPT-4o 对生成的问题进行评估,并基于清晰度、逻辑性、相关性、一致性等方面进行筛选和反馈,以提高问题质量。
特点
AttackSeqBench 数据集的特点在于其专注于评估 LLM 对 CTI 报告中攻击序列的理解和推理能力。数据集包含了三个不同的 QA 任务,每个任务都聚焦于对抗行为的不同粒度。此外,数据集采用了混合评估方法,结合了人工评估和系统评估指标,以确保数据集的质量。数据集还考虑了可扩展性,可以轻松地整合新的攻击序列,以适应不断变化的网络威胁环境。
使用方法
使用 AttackSeqBench 数据集的方法包括三个设置:常规设置、零样本设置和 RAG-增强设置。在常规设置中,LLM 需要根据带有遮蔽的 CTI 概述回答问题。在零样本设置中,LLM 仅根据问题本身进行推理。在 RAG-增强设置中,LLM 会接收到与问题相关的 ATT&CK TTP 信息,以便更好地理解攻击序列。通过比较不同设置下 LLM 的表现,可以深入了解 LLM 在分析攻击序列方面的能力和局限性。
背景与挑战
背景概述
在网络安全领域,网络威胁情报(CTI)报告对于描述对抗性行为、为安全从业者提供应对不断演变威胁的宝贵见解发挥着关键作用。近年来,大型语言模型(LLM)在网络安全应用中的潜力日益显现,包括CTI报告理解和攻击知识图谱构建。然而,尽管先前的工作已经提出了专注于LLM的CTI提取能力的基准,但CTI报告中对抗性行为的顺序特征仍然在很大程度上未被探索,这对于全面理解攻击者如何运作具有重要意义。为了解决这个问题,研究人员引入了AttackSeqBench,这是一个定制的基准,旨在系统地评估LLM理解CTI报告中攻击序列的能力。该基准涵盖了三个不同的问答(QA)任务,每个任务都侧重于对抗性行为的不同粒度。为了减轻QA构建的繁琐工作,研究人员精心设计了一个自动化的数据集构建流程,以基于现实世界的CTI报告创建可扩展且格式良好的QA数据集。为了确保数据集的质量,研究人员采用了结合人工评估和系统评估指标的混合方法。他们使用快速思考和慢思考的LLM进行了广泛的实验和分析,同时突出了它们在分析网络攻击中的顺序模式方面的优势和局限性。该工作的总体目标是提供一个基准,以推动LLM驱动的CTI报告理解并促进其在现实世界网络安全操作中的应用。该数据集和代码可在https://github.com/Javiery3889/AttackSeqBench获取。
当前挑战
AttackSeqBench数据集面临的主要挑战包括:1)LLM在分析攻击序列方面的能力和局限性;2)构建过程中遇到的挑战,包括如何确保QA数据集的质量和可扩展性;3)如何使基准易于扩展以纳入新观察到的攻击序列;4)如何使基准具有通用性,以确保对LLM能力的全面和现实的评估;5)如何确保基准的可重复性,以便在不同LLM之间进行公平和一致的评估。
常用场景
经典使用场景
AttackSeqBench 数据集被广泛应用于评估大型语言模型(LLMs)在理解网络安全领域中攻击序列的能力。该数据集包含三个不同的问答(QA)任务,每个任务针对对抗行为的不同粒度,旨在全面评估 LLMs 对攻击序列的理解和推理能力。这些任务包括:AttackSeq-Tactic,AttackSeq-Technique 和 AttackSeq-Procedure,它们分别对应于攻击序列中的策略、技术和程序。这些任务的设计使得安全从业者能够根据预先定义的对抗行为,以不同级别的粒度表示观察到的攻击模式。
实际应用
AttackSeqBench 数据集在实际应用中具有重要的价值。它可以帮助安全从业者更好地理解和分析网络安全威胁,从而制定更有效的防御策略。此外,该数据集还可以用于训练 LLMs,使其在网络安全领域中具有更高的理解和推理能力。通过使用 AttackSeqBench 数据集进行训练,LLMs 可以更好地理解和分析攻击序列,从而提高网络安全领域的自动化和智能化水平。
衍生相关工作
AttackSeqBench 数据集衍生了多项相关研究。例如,DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning 论文提出了一种通过强化学习激励 LLMs 推理能力的方法,该方法可以应用于 AttackSeqBench 数据集中的任务。此外,CTIBench: A Benchmark for Evaluating LLMs in Cyber Threat Intelligence 论文提出了一种用于评估 LLMs 在网络安全威胁情报中的能力的基准,该基准也可以应用于 AttackSeqBench 数据集中的任务。这些研究进一步推动了 LLMs 在网络安全领域的应用和发展。
以上内容由遇见数据集搜集并总结生成



