CTI-HAL
收藏arXiv2025-04-08 更新2025-04-10 收录
下载链接:
https://github.com/dessertlab/CTI-HAL
下载链接
链接失效反馈官方服务:
资源简介:
CTI-HAL是一个针对网络威胁情报分析的手动构建数据集,根据MITRE ATT&CK框架进行结构化。该数据集由81份真实网络威胁情报报告组成,包含116种技术,覆盖了多个APT组织和不同领域的威胁,适用于网络安全研究领域的各种应用。
CTI-HAL is a manually constructed dataset for cyber threat intelligence analysis, structured according to the MITRE ATT&CK framework. This dataset consists of 81 real-world cyber threat intelligence reports, covering 116 techniques, encompassing threats from multiple APT groups across different domains, and is suitable for various applications in the field of cybersecurity research.
提供机构:
那不勒斯费德里克二世大学
创建时间:
2025-04-08
搜集汇总
数据集介绍

构建方式
CTI-HAL数据集通过精心分析并手动标注自然语言撰写的真实网络威胁情报(CTI)报告构建而成。研究团队从Adversary Emulation Library开源库中选取了81份涉及APT29、Carbanak等7个高级持续性威胁(APT)组织的报告,采用三阶段工作流程:首先由两名独立标注者对PDF格式报告进行语句级MITRE ATT&CK框架标注;随后通过自动化工具将标注转换为Markdown格式;最终利用Python脚本标准化为包含技术ID、战术、工具等元数据的JSON文件。整个过程历时8周,并通过Krippendorff's Alpha系数(α=0.70)验证了标注一致性。
特点
该数据集最显著的特点是实现了语句级细粒度标注,每个标注都精确对应原始报告中的具体句子,并关联MITRE ATT&CK框架中的116项技术、104项子技术和111种工具。区别于现有数据集,CTI-HAL不仅涵盖金融、能源等多个领域的攻击场景,还通过双向追溯机制保持原始文档与结构化数据的关联。分析显示,T1059(命令与脚本解释器)、T1566(钓鱼攻击)等技术出现频率超过20次,而约40%的技术具有高度特异性。这种设计既反映了真实攻击中的常见模式,又保留了威胁行为的多样性特征。
使用方法
CTI-HAL主要应用于评估AI模型在网络威胁情报提取中的性能。在实际商业场景验证中,研究人员采用Claude 3 Haiku模型对数据集进行三类测试:大型报告(4-20KB)、精简报告(4-8KB)和商业CTI订阅源。通过设计包含角色提示、零样本提示等工程技术的标准化提示模板,模型在精简报告上取得76.57%的F1分数,较大型报告提升15个百分点。该数据集还可支持对抗模拟、威胁狩猎等安全活动,其JSON格式便于直接集成到自动化威胁分析流水线中。
背景与挑战
背景概述
CTI-HAL数据集由意大利那不勒斯费德里科二世大学的Sofia Della Penna等人于2025年提出,旨在解决网络安全领域中高级持续性威胁(APTs)分析的关键问题。该数据集基于真实的网络威胁情报(CTI)报告,采用人工标注方式构建,并严格遵循MITRE ATT&CK框架进行结构化组织。其核心价值在于填补了现有自动化CTI分析工具在处理非结构化自然语言文本时的技术空白,通过提供细粒度的语句级标注数据,显著提升了威胁行为模式(TTPs)识别的准确性。作为首个公开可用且经过多标注者一致性验证的CTI数据集,CTI-HAL为人工智能驱动的网络安全研究提供了重要基准,尤其在对抗模拟、威胁狩猎等主动防御场景中展现出独特优势。
当前挑战
在领域问题层面,CTI-HAL主要应对三大挑战:1) 非结构化CTI报告的语义解析难题,安全分析师撰写的自然语言描述包含大量专业术语和隐含上下文;2) TTPs识别中的误报问题,现有AI模型易将良性语句误判为攻击技术;3) 大语言模型在CTI分析中的幻觉现象,可能虚构不存在的威胁指标。在构建过程中,研究团队面临标注一致性控制的技术挑战,需通过Krippendorff's alpha系数确保多标注者间0.7以上的显著一致性;同时处理CTI报告间的领域差异性,涵盖金融、能源等多行业的APT攻击模式;此外还需平衡数据规模与标注质量,最终完成81份报告、116项攻击技术的精细标注。
常用场景
经典使用场景
CTI-HAL数据集在网络安全领域中被广泛应用于高级持续性威胁(APT)的分析与检测。该数据集基于MITRE ATT&CK框架,通过人工标注的方式将非结构化的网络威胁情报(CTI)报告转化为结构化数据,为研究人员提供了丰富的标注信息。其经典使用场景包括训练和评估自然语言处理(NLP)模型,特别是大型语言模型(LLM),以自动提取威胁情报中的战术、技术和程序(TTPs)。
衍生相关工作
CTI-HAL数据集推动了多项经典研究工作的开展。例如,基于该数据集的评估结果,研究人员优化了LLM在威胁情报提取中的提示工程(prompt engineering)方法。此外,其标注方法和质量评估框架被后续研究(如TTPHunter、IntelEX等)借鉴,进一步提升了领域内数据集的标准化水平。数据集的开源性也促进了跨团队合作,加速了AI驱动的网络安全解决方案的发展。
数据集最近研究
最新研究方向
在网络安全领域,随着高级持续性威胁(APTs)的日益复杂化,威胁情报分析(CTI)的重要性愈发凸显。CTI-HAL数据集的推出,为基于人工智能的威胁情报自动提取技术提供了新的研究平台。该数据集基于MITRE ATT&CK框架,通过人工标注的方式构建,确保了数据的准确性和可靠性。最新研究显示,CTI-HAL数据集在评估大型语言模型(LLMs)在商业威胁情报提取中的表现方面展现出卓越的通用性。此外,该数据集在促进威胁情报共享、提升安全防御策略的精准性方面具有重要价值,为网络安全领域的前沿研究提供了有力支持。
相关研究论文
- 1CTI-HAL: A Human-Annotated Dataset for Cyber Threat Intelligence Analysis那不勒斯费德里克二世大学 · 2025年
以上内容由遇见数据集搜集并总结生成



