CTI-HAL

Name: CTI-HAL
Creator: 那不勒斯费德里克二世大学
Published: 2025-04-08 17:47:15
License: 暂无描述

arXiv2025-04-08 更新2025-04-10 收录

下载链接：

https://github.com/dessertlab/CTI-HAL

下载链接

链接失效反馈

官方服务：

资源简介：

CTI-HAL是一个针对网络威胁情报分析的手动构建数据集，根据MITRE ATT&CK框架进行结构化。该数据集由81份真实网络威胁情报报告组成，包含116种技术，覆盖了多个APT组织和不同领域的威胁，适用于网络安全研究领域的各种应用。

CTI-HAL is a manually constructed dataset for cyber threat intelligence analysis, structured according to the MITRE ATT&CK framework. This dataset consists of 81 real-world cyber threat intelligence reports, covering 116 techniques, encompassing threats from multiple APT groups across different domains, and is suitable for various applications in the field of cybersecurity research.

提供机构：

那不勒斯费德里克二世大学

创建时间：

2025-04-08

搜集汇总

数据集介绍

构建方式

CTI-HAL数据集通过精心分析并手动标注自然语言撰写的真实网络威胁情报(CTI)报告构建而成。研究团队从Adversary Emulation Library开源库中选取了81份涉及APT29、Carbanak等7个高级持续性威胁(APT)组织的报告，采用三阶段工作流程：首先由两名独立标注者对PDF格式报告进行语句级MITRE ATT&CK框架标注；随后通过自动化工具将标注转换为Markdown格式；最终利用Python脚本标准化为包含技术ID、战术、工具等元数据的JSON文件。整个过程历时8周，并通过Krippendorff's Alpha系数(α=0.70)验证了标注一致性。

特点

该数据集最显著的特点是实现了语句级细粒度标注，每个标注都精确对应原始报告中的具体句子，并关联MITRE ATT&CK框架中的116项技术、104项子技术和111种工具。区别于现有数据集，CTI-HAL不仅涵盖金融、能源等多个领域的攻击场景，还通过双向追溯机制保持原始文档与结构化数据的关联。分析显示，T1059(命令与脚本解释器)、T1566(钓鱼攻击)等技术出现频率超过20次，而约40%的技术具有高度特异性。这种设计既反映了真实攻击中的常见模式，又保留了威胁行为的多样性特征。

使用方法

CTI-HAL主要应用于评估AI模型在网络威胁情报提取中的性能。在实际商业场景验证中，研究人员采用Claude 3 Haiku模型对数据集进行三类测试：大型报告(4-20KB)、精简报告(4-8KB)和商业CTI订阅源。通过设计包含角色提示、零样本提示等工程技术的标准化提示模板，模型在精简报告上取得76.57%的F1分数，较大型报告提升15个百分点。该数据集还可支持对抗模拟、威胁狩猎等安全活动，其JSON格式便于直接集成到自动化威胁分析流水线中。

背景与挑战

背景概述

CTI-HAL数据集由意大利那不勒斯费德里科二世大学的Sofia Della Penna等人于2025年提出，旨在解决网络安全领域中高级持续性威胁（APTs）分析的关键问题。该数据集基于真实的网络威胁情报（CTI）报告，采用人工标注方式构建，并严格遵循MITRE ATT&CK框架进行结构化组织。其核心价值在于填补了现有自动化CTI分析工具在处理非结构化自然语言文本时的技术空白，通过提供细粒度的语句级标注数据，显著提升了威胁行为模式（TTPs）识别的准确性。作为首个公开可用且经过多标注者一致性验证的CTI数据集，CTI-HAL为人工智能驱动的网络安全研究提供了重要基准，尤其在对抗模拟、威胁狩猎等主动防御场景中展现出独特优势。

当前挑战

在领域问题层面，CTI-HAL主要应对三大挑战：1) 非结构化CTI报告的语义解析难题，安全分析师撰写的自然语言描述包含大量专业术语和隐含上下文；2) TTPs识别中的误报问题，现有AI模型易将良性语句误判为攻击技术；3) 大语言模型在CTI分析中的幻觉现象，可能虚构不存在的威胁指标。在构建过程中，研究团队面临标注一致性控制的技术挑战，需通过Krippendorff's alpha系数确保多标注者间0.7以上的显著一致性；同时处理CTI报告间的领域差异性，涵盖金融、能源等多行业的APT攻击模式；此外还需平衡数据规模与标注质量，最终完成81份报告、116项攻击技术的精细标注。

常用场景

经典使用场景

CTI-HAL数据集在网络安全领域中被广泛应用于高级持续性威胁（APT）的分析与检测。该数据集基于MITRE ATT&CK框架，通过人工标注的方式将非结构化的网络威胁情报（CTI）报告转化为结构化数据，为研究人员提供了丰富的标注信息。其经典使用场景包括训练和评估自然语言处理（NLP）模型，特别是大型语言模型（LLM），以自动提取威胁情报中的战术、技术和程序（TTPs）。

衍生相关工作

CTI-HAL数据集推动了多项经典研究工作的开展。例如，基于该数据集的评估结果，研究人员优化了LLM在威胁情报提取中的提示工程（prompt engineering）方法。此外，其标注方法和质量评估框架被后续研究（如TTPHunter、IntelEX等）借鉴，进一步提升了领域内数据集的标准化水平。数据集的开源性也促进了跨团队合作，加速了AI驱动的网络安全解决方案的发展。

数据集最近研究