AttackSeqBench
收藏github2025-02-25 更新2025-03-12 收录
下载链接:
https://github.com/Javiery3889/AttackSeqBench
下载链接
链接失效反馈官方服务:
资源简介:
AttackSeqBench是一个新颖的问答(QA)基准,旨在系统评估大型语言模型(LLMs)在理解网络威胁情报(CTI)报告中的攻击序列方面的能力。该数据集基于真实世界的CTI报告构建,包含三个任务,每个任务专注于不同粒度的对抗行为。
AttackSeqBench is a novel question answering (QA) benchmark designed to systematically evaluate the capabilities of large language models (LLMs) in understanding attack sequences in cyber threat intelligence (CTI) reports. This dataset is constructed based on real-world CTI reports and includes three tasks, each focusing on adversarial behaviors at different granularities.
创建时间:
2025-02-17
原始信息汇总
AttackSeqBench 数据集概述
数据集简介
- AttackSeqBench 是一个新颖的问答(QA)基准测试,旨在系统评估大型语言模型(LLMs)在理解网络威胁情报(CTI)报告中攻击序列的能力。
- 数据集基于真实世界的 CTI 报告,通过自动化构建流程创建,具有可扩展性和良好的结构化。
- 主要目标是为 LLM 驱动的网络安全操作提供基准,促进 CTI 报告理解和实际网络安全应用。
数据集构成
- 数据集包含三个任务,分别关注不同粒度的对抗行为:
- AttackSeq-Tactic:测试 LLM 推断攻击序列中的高级 ATT&CK 战术的能力。
- AttackSeq-Technique:评估 LLM 识别攻击序列中特定技术的能力。
- AttackSeq-Procedure:要求 LLM 评估攻击序列中特定程序的合理性。
数据集构建流程
- 采用 MITRE ATT&CK 知识库中的三层对抗行为结构(战术、技术、程序)。
- 使用 Self-Refine 框架迭代改进生成的问题质量。
- 采用混合评估方法:
- 使用 G-Eval 自动评估数据集。
- 对随机样本进行人工评估。
代码结构
/question_generation:生成和构建每个基准任务的初始 QA 数据集。/question_refinement:过滤和优化初始数据集中的 QA 对。
快速开始
- 修改
.env.example文件并重命名为.env。 - 安装 Python 依赖:
pip install -r requirements.txt。 - 生成问题:运行
/question_generation/run_question_generation_pipeline.py。 - 运行自我优化流程:运行
/question_refinement/run_refinement_pipeline.py。 - 生成 AttackSeq-Procedure-No 问题:运行
/question_generation/generate_no_procedure_questions.py和/question_generation/construct_AttackSeq_Procedure_No.py。
LLM 基准测试
测试设置
- 设计三种基准测试设置,评估 LLMs 在不同上下文知识量下的表现。
测试结果
- 对多种快速思考和慢速思考推理的 LLMs 进行广泛调查。
- 推理结果存储在
/inference目录中:/inference/hf:HuggingFace 上的开源模型。/openai:OpenAI 模型。
- HuggingFace LLMs 的输出可通过 Google Drive 链接 获取。
搜集汇总
数据集介绍

构建方式
AttackSeqBench数据集的构建遵循MITRE ATT&CK知识库中对抗行为的层级结构,即策略(Tactics)、技术(Techniques)和程序(Procedures)。通过自动化数据集构建流程,结合自我优化框架以迭代提升问题质量,并采用混合评估方法,创建了涵盖三种问答任务的高质量问答数据集。
特点
该数据集具有三个特点:一是基于真实世界网络威胁情报报告构建,二是包含三个不同粒度的对抗行为任务,三是通过自我优化框架和混合评估策略确保了数据集的质量和多样性。
使用方法
使用该数据集需先配置环境变量文件,安装必要的Python依赖。数据集构建包括问题生成和问题精炼两个阶段,通过执行相应的Python脚本进行。此外,根据不同的上下文知识量,设计了三种基准测试设置以评估LLM模型在理解网络威胁情报报告方面的能力。
背景与挑战
背景概述
在网络安全领域,理解网络威胁情报(CTI)报告中的攻击序列对于防御和响应网络攻击至关重要。AttackSeqBench数据集应运而生,旨在系统评估大型语言模型(LLM)在理解CTI报告中所发现的攻击序列的能力。该数据集由Javiery3889团队创建于近期,并采用自动化的数据集构建流程,基于真实世界的CTI报告打造了一个可扩展且格式良好的问答(QA)数据集。数据集包括三个任务,分别关注对抗行为的不同的粒度,即策略(Tactic)、技术(Technique)和程序(Procedure),以促进LLM在网络安全操作中的应用和发展。
当前挑战
该数据集的构建和评估过程中面临着多重挑战。首先,构建过程中需要确保QA数据集的质量和准确性,这要求采用如Self-Refine框架等先进技术来迭代改进生成的问题质量。其次,评估LLM在理解CTI报告和推理威胁行为方面的能力,需要设计三种不同的基准设置来提供不同程度的上下文知识。此外,数据集构建和评估过程中的挑战还包括如何平衡自动评估与人工评估的精确性和效率,以及如何确保所生成的数据集在真实世界网络安全操作中的适用性和有效性。
常用场景
经典使用场景
AttackSeqBench数据集作为一项针对大型语言模型在网络安全领域理解攻击序列能力的评估基准,其经典使用场景主要在于对语言模型在处理网络威胁情报报告中的高级任务进行系统性评价。该数据集模拟了现实世界中的网络攻击序列,通过构建基于MITRE ATT&CK知识库的三级对抗行为结构,即策略、技术和程序,为模型提供了理解不同粒度敌方行为的能力。
解决学术问题
该数据集解决了学术研究中对于大型语言模型在网络安全领域应用能力的评估问题,提供了量化的方法来衡量模型在理解网络威胁情报报告和推理威胁行为方面的表现。这不仅有助于推动网络安全领域的研究,而且为模型在实际操作中的有效性提供了实证基础,增强了学术研究的实践意义。
衍生相关工作
基于AttackSeqBench数据集的研究已经衍生出多项相关工作,包括但不限于对数据集本身的改进、对评估方法的优化,以及将该数据集应用于不同类型的网络安全模型训练和评估。这些相关工作进一步扩展了数据集的应用范围,推动了网络安全领域的研究深度和广度。
以上内容由遇见数据集搜集并总结生成



