CYBERTEAM

Name: CYBERTEAM
Creator: 宾汉姆顿大学、杜克大学、阿拉巴马大学伯明翰分校
Published: 2025-09-28 10:08:17
License: 暂无描述

arXiv2025-09-28 更新2025-11-21 收录

下载链接：

https://github.com/mengyuqiao/LLM-Cyberteam

下载链接

链接失效反馈

官方服务：

资源简介：

CYBERTEAM是一个为蓝队威胁狩猎实践而设计的基准数据集，它整合了来自23个漏洞数据库和多个安全平台的威胁情报数据，包括MITRE、NVD、CISE、Red Hat Bugzilla、Oracle Security Alerts和IBM X-Force等。数据集涵盖了威胁狩猎的整个生命周期，包括威胁归因、行为分析、优先级排序和响应与缓解。CYBERTEAM通过模块化策略将威胁狩猎任务标准化，使LLMs能够在标准化的推理环境中进行灵活的推理。数据集的创建旨在评估LLMs在复杂、相互依赖的威胁狩猎场景中的性能，并指导LLMs通过模块化的步骤进行威胁狩猎。

CYBERTEAM is a benchmark dataset tailored for blue team threat hunting practices. It integrates threat intelligence data sourced from 23 vulnerability databases and multiple security platforms, including MITRE, NVD, CISE, Red Hat Bugzilla, Oracle Security Alerts, IBM X-Force, among others. The dataset encompasses the full lifecycle of threat hunting, spanning threat attribution, behavioral analysis, prioritization, response and mitigation. CYBERTEAM standardizes threat hunting tasks through a modular framework, enabling LLMs to perform flexible reasoning within a standardized inference environment. This dataset is developed to evaluate the performance of LLMs in complex and interdependent threat hunting scenarios, and to guide LLMs in conducting threat hunting via modular steps.

提供机构：

宾汉姆顿大学、杜克大学、阿拉巴马大学伯明翰分校

创建时间：

2025-09-28

搜集汇总

数据集介绍

构建方式

在网络安全威胁日益复杂化的背景下，CYBERTEAM通过两阶段标准化流程构建威胁狩猎工作流。第一阶段模拟真实威胁分析流程，建立从威胁归因到事件响应的任务依赖链；第二阶段针对每个任务设计专用操作模块，将威胁狩猎转化为结构化推理序列。该数据集整合了来自23个漏洞数据库与威胁情报平台的45万余条数据，通过模块化操作确保分析过程既遵循标准化流程，又保留应对新型威胁的灵活性。

特点

该数据集最显著的特点是采用模块化操作框架平衡标准化与灵活性需求。通过9类功能模块（如命名实体识别、检索增强生成等）引导大语言模型执行分析任务，既保证了输出结果的结构化与可追溯性，又支持对非结构化威胁日志的适应性处理。其任务体系全面覆盖威胁归因、行为分析、优先级评估与响应缓解四大阶段，且每个任务均配备专用评估指标，为量化分析模型性能提供多维度的测量基准。

使用方法

使用该数据集时，研究者可通过其标准化推理环境引导大语言模型执行模块化威胁分析。具体操作包括：根据任务依赖链确定分析顺序，调用相应功能模块处理威胁元数据，并通过结构化输出传递至下游任务。例如在响应建议任务中，先通过检索增强生成模块获取最新安全通告，再经摘要模块提炼关键缓解策略。该设计支持对现有大语言模型及网络安全智能体进行系统化评估，同时为实际蓝队工作流提供可复用的分析范式。

背景与挑战

背景概述

随着网络威胁规模和复杂性的持续增长，蓝队防御者亟需先进工具以主动检测和缓解风险。在此背景下，CYBERTEAM数据集于2025年由宾汉姆顿大学、杜克大学和阿拉巴马大学伯明翰分校的研究团队联合创建，旨在系统评估大型语言模型在蓝队威胁狩猎实践中的效能。该数据集构建了一个标准化的两阶段工作流，首先通过建模现实威胁狩猎流程捕获从威胁归因到事件响应的任务依赖关系，随后针对每个任务设计特定分析需求的操作模块。通过整合来自23个漏洞数据库和威胁情报平台的452,293个样本，覆盖30项核心任务，CYBERTEAM为人工智能辅助网络安全领域提供了首个全面评估蓝队工作流的基准框架，显著推动了结构化推理在威胁分析中的应用。

当前挑战

在解决威胁狩猎领域问题时，CYBERTEAM面临两大核心挑战：其一，传统开放式推理方法在复杂任务链中易产生逻辑断裂与幻觉现象，难以协调多阶段分析的依赖关系；其二，数据集构建过程中需克服异构数据融合的难题，包括统一MITRE ATT&CK、NVD等23类数据源的语义差异，同时平衡模块化操作的标准化要求与零日威胁分析的灵活性需求。此外，语义级噪声对模型推理的干扰远高于词法噪声，凸显了高质量威胁情报数据在实战环境中的关键作用。

常用场景

经典使用场景

在网络安全防御领域，CYBERTEAM数据集作为评估大型语言模型在蓝队威胁狩猎中性能的基准平台，其经典应用场景体现在构建标准化的威胁分析工作流。该数据集通过整合来自23个漏洞数据库和威胁情报平台的452,293个样本，模拟真实网络威胁从检测到响应的完整生命周期。研究人员利用其30个分析任务和9个操作模块，能够系统评估LLMs在威胁归因、行为分析、优先级排序和响应缓解等关键环节的表现，为AI辅助网络安全防御提供可靠的性能度量标准。

衍生相关工作

基于CYBERTEAM数据集衍生的经典研究呈现出多元化发展态势。在方法论层面，其模块化推理框架启发了后续网络安全智能体设计，如将操作模块扩展到更多防御场景；在评估体系方面，该数据集建立的标准化度量方法被多个后续基准采纳，推动了网络安全评估从单一指标向多维性能衡量的演进；在应用创新领域，研究者利用其任务依赖模型开发了新型威胁狩猎系统，实现了从被动防御到主动预测的范式转变。这些衍生工作共同构成了AI增强网络防御的重要技术脉络。

数据集最近研究