five

CTI-HAL|网络安全数据集|威胁情报数据集

收藏
arXiv2025-04-08 更新2025-04-10 收录
网络安全
威胁情报
下载链接:
https://github.com/dessertlab/CTI-HAL
下载链接
链接失效反馈
资源简介:
CTI-HAL是一个针对网络威胁情报分析的手动构建数据集,根据MITRE ATT&CK框架进行结构化。该数据集由81份真实网络威胁情报报告组成,包含116种技术,覆盖了多个APT组织和不同领域的威胁,适用于网络安全研究领域的各种应用。
提供机构:
那不勒斯费德里克二世大学
创建时间:
2025-04-08
AI搜集汇总
数据集介绍
main_image_url
构建方式
CTI-HAL数据集通过精心分析并手动标注自然语言撰写的真实网络威胁情报(CTI)报告构建而成。研究团队从Adversary Emulation Library开源库中选取了81份涉及APT29、Carbanak等7个高级持续性威胁(APT)组织的报告,采用三阶段工作流程:首先由两名独立标注者对PDF格式报告进行语句级MITRE ATT&CK框架标注;随后通过自动化工具将标注转换为Markdown格式;最终利用Python脚本标准化为包含技术ID、战术、工具等元数据的JSON文件。整个过程历时8周,并通过Krippendorff's Alpha系数(α=0.70)验证了标注一致性。
特点
该数据集最显著的特点是实现了语句级细粒度标注,每个标注都精确对应原始报告中的具体句子,并关联MITRE ATT&CK框架中的116项技术、104项子技术和111种工具。区别于现有数据集,CTI-HAL不仅涵盖金融、能源等多个领域的攻击场景,还通过双向追溯机制保持原始文档与结构化数据的关联。分析显示,T1059(命令与脚本解释器)、T1566(钓鱼攻击)等技术出现频率超过20次,而约40%的技术具有高度特异性。这种设计既反映了真实攻击中的常见模式,又保留了威胁行为的多样性特征。
使用方法
CTI-HAL主要应用于评估AI模型在网络威胁情报提取中的性能。在实际商业场景验证中,研究人员采用Claude 3 Haiku模型对数据集进行三类测试:大型报告(4-20KB)、精简报告(4-8KB)和商业CTI订阅源。通过设计包含角色提示、零样本提示等工程技术的标准化提示模板,模型在精简报告上取得76.57%的F1分数,较大型报告提升15个百分点。该数据集还可支持对抗模拟、威胁狩猎等安全活动,其JSON格式便于直接集成到自动化威胁分析流水线中。
背景与挑战
背景概述
CTI-HAL数据集由意大利那不勒斯费德里科二世大学的Sofia Della Penna等人于2025年提出,旨在解决网络安全领域中高级持续性威胁(APTs)分析的关键问题。该数据集基于真实的网络威胁情报(CTI)报告,采用人工标注方式构建,并严格遵循MITRE ATT&CK框架进行结构化组织。其核心价值在于填补了现有自动化CTI分析工具在处理非结构化自然语言文本时的技术空白,通过提供细粒度的语句级标注数据,显著提升了威胁行为模式(TTPs)识别的准确性。作为首个公开可用且经过多标注者一致性验证的CTI数据集,CTI-HAL为人工智能驱动的网络安全研究提供了重要基准,尤其在对抗模拟、威胁狩猎等主动防御场景中展现出独特优势。
当前挑战
在领域问题层面,CTI-HAL主要应对三大挑战:1) 非结构化CTI报告的语义解析难题,安全分析师撰写的自然语言描述包含大量专业术语和隐含上下文;2) TTPs识别中的误报问题,现有AI模型易将良性语句误判为攻击技术;3) 大语言模型在CTI分析中的幻觉现象,可能虚构不存在的威胁指标。在构建过程中,研究团队面临标注一致性控制的技术挑战,需通过Krippendorff's alpha系数确保多标注者间0.7以上的显著一致性;同时处理CTI报告间的领域差异性,涵盖金融、能源等多行业的APT攻击模式;此外还需平衡数据规模与标注质量,最终完成81份报告、116项攻击技术的精细标注。
常用场景
经典使用场景
CTI-HAL数据集在网络安全领域中被广泛应用于高级持续性威胁(APT)的分析与检测。该数据集基于MITRE ATT&CK框架,通过人工标注的方式将非结构化的网络威胁情报(CTI)报告转化为结构化数据,为研究人员提供了丰富的标注信息。其经典使用场景包括训练和评估自然语言处理(NLP)模型,特别是大型语言模型(LLM),以自动提取威胁情报中的战术、技术和程序(TTPs)。
衍生相关工作
CTI-HAL数据集推动了多项经典研究工作的开展。例如,基于该数据集的评估结果,研究人员优化了LLM在威胁情报提取中的提示工程(prompt engineering)方法。此外,其标注方法和质量评估框架被后续研究(如TTPHunter、IntelEX等)借鉴,进一步提升了领域内数据集的标准化水平。数据集的开源性也促进了跨团队合作,加速了AI驱动的网络安全解决方案的发展。
数据集最近研究
最新研究方向
在网络安全领域,随着高级持续性威胁(APTs)的日益复杂化,威胁情报分析(CTI)的重要性愈发凸显。CTI-HAL数据集的推出,为基于人工智能的威胁情报自动提取技术提供了新的研究平台。该数据集基于MITRE ATT&CK框架,通过人工标注的方式构建,确保了数据的准确性和可靠性。最新研究显示,CTI-HAL数据集在评估大型语言模型(LLMs)在商业威胁情报提取中的表现方面展现出卓越的通用性。此外,该数据集在促进威胁情报共享、提升安全防御策略的精准性方面具有重要价值,为网络安全领域的前沿研究提供了有力支持。
相关研究论文
  • 1
    CTI-HAL: A Human-Annotated Dataset for Cyber Threat Intelligence Analysis那不勒斯费德里克二世大学 · 2025年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国食物成分数据库

食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源,是提供人类基本需求和基本社会保障的先决条件;也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础,兼具学术、经济、社会等多种价值。 本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分(含胆固醇)数据,657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。

国家人口健康科学数据中心 收录

中国气象数据

本数据集包含了中国2023年1月至11月的气象数据,包括日照时间、降雨量、温度、风速等关键数据。通过这些数据,可以深入了解气象现象对不同地区的影响,并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。

github 收录

Figshare

Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。

figshare.com 收录

GHCN

GHCN(Global Historical Climatology Network)是一个全球历史气候网络数据集,包含了全球各地气象站记录的每日气象数据,如温度、降水、风速等。该数据集用于研究气候变化和天气模式。

www.ncei.noaa.gov 收录

CAMUS_public-ImageMask-Dataset

这是一个用于图像分割的CAMUS_public(心脏多结构超声分割采集)数据集。该数据集包含来自500名患者的临床检查,这些检查在法国圣艾蒂安大学医院进行,并根据当地伦理委员会的规定进行了完全匿名化处理。数据集旨在执行左心室射血分数测量,并反映了临床实践中的数据多样性,包括图像质量和病理情况的广泛变异。数据集分为训练集(450名患者)和测试集(50名新患者),原始输入图像以raw/mhd文件格式提供。

github 收录