five

CTIMiner

收藏
arXiv2019-10-06 更新2024-08-06 收录
下载链接:
http://arxiv.org/abs/1811.10050v3
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集名为CTIMiner,通过收集公开的安全报告和恶意软件库中的威胁数据,存储在结构化格式中。数据集包含约640,000条记录,来自2008年1月至2019年6月发布的612份安全报告。

This dataset is named CTIMiner. It collects threat data from public cybersecurity reports and malware repositories, and stores the data in a structured format. The dataset contains approximately 640,000 records sourced from 612 cybersecurity reports published between January 2008 and June 2019.
创建时间:
2018-11-26
搜集汇总
数据集介绍
main_image_url
构建方式
在网络安全威胁情报研究领域,数据获取的局限性长期制约着分析技术的深入发展。CTIMiner数据集通过自动化系统构建,其核心流程涵盖三个阶段:首先从公开的APT安全报告中解析威胁指标,利用改进的IoC解析器提取URL、IP地址、哈希值等结构化数据;随后基于提取的恶意软件哈希值,从云端恶意软件存储库中获取补充分析信息,如互斥锁、代码签名等深层特征;最后对多源数据进行去重与降噪处理,并存储于MISP平台,形成包含约64万条记录、时间跨度为2008年至2019年的标准化数据集。
特点
该数据集显著特点体现在其多维度的数据整合能力与内在关联性。数据内容不仅涵盖传统威胁指标,更融合了恶意软件行为分析产生的非结构化特征,如运行时字符串与文件映射信息,从而拓展了威胁表征的深度。数据集以安全报告为单元组织事件,天然建立了事件间基于同一攻击活动的关联逻辑,为相关性分析提供了可靠基础。统计显示,约43%的数据源自恶意软件分析结果,其中26%为安全报告中未包含的新增信息,凸显了多源数据融合对情报完整性的增强价值。
使用方法
该数据集适用于支持网络威胁情报的进阶分析方法研究。在相关性分析方面,可利用事件内嵌的时空属性与数据重叠特征,构建威胁活动图谱,追溯攻击者行为模式;在时序分析中,结合恶意软件编译时间与报告发布时间,能够刻画攻击战役的演化轨迹。研究者可通过公开的源代码定制数据提取流程,并借助MISP平台的内置工具实现可视化关联挖掘。数据集特别适用于噪声过滤算法、跨事件相似性度量、以及基于概率模型的威胁预测等前沿课题的实证研究。
背景与挑战
背景概述
随着网络攻击日益复杂化,攻击者常通过伪装身份掩盖行踪,网络威胁情报(CTI)作为理解攻击意图、预测未来威胁的关键手段,逐渐受到学术界与工业界的重视。然而,CTI分析研究长期受限于真实数据难以获取,导致相关技术发展失衡。在此背景下,韩国大学信息安全研究生院的Daegeon Kim与Huy Kang Kim于2019年提出了CTIMiner系统,旨在通过自动化采集公开安全报告与恶意软件仓库数据,构建结构化威胁数据集。该系统覆盖2008年至2019年间612份安全报告,包含约64万条记录,为网络威胁分析提供了宝贵的开源数据基础,推动了协同研究的发展。
当前挑战
CTIMiner数据集致力于解决网络威胁情报分析领域的数据稀缺性挑战,其核心在于为攻击关联分析、意图推断等高级研究提供数据支撑。在构建过程中,面临多重技术难题:首先,数据源异构且非结构化,需设计高效解析器从安全报告中提取指标,但受限于正则表达式匹配,部分关键信息如攻击者组织、战术意图难以自动捕获;其次,恶意软件分析数据虽能补充报告内容,却引入大量环境噪声,需在误报与漏报间权衡过滤策略;此外,数据关联依赖字符串匹配,难以识别变体标识或语义相似实体,限制了深层关联分析的精度。这些挑战凸显了自动化威胁情报生成在数据质量、完整性及语义理解方面的局限。
常用场景
经典使用场景
在网络安全威胁情报分析领域,CTIMiner数据集为研究者提供了一个结构化的威胁数据资源,其经典使用场景在于支持高级持续性威胁(APT)事件的关联性分析。通过整合从公开安全报告和恶意软件存储库中提取的指标,该数据集使得研究者能够构建事件间的关联图,从而揭示攻击者的行为模式和潜在意图。例如,在分析拉撒路集团等知名威胁组织时,研究者可利用数据集中的哈希值、IP地址和代码签名等信息,追踪跨多个安全事件的共同特征,进而验证攻击活动的关联性。
实际应用
在实际应用层面,CTIMiner数据集被广泛应用于网络安全运营中心(SOC)和威胁情报平台,以增强对复杂攻击的检测与响应能力。安全分析师可利用该数据集中的结构化指标,如恶意软件哈希、网络地址和字符串特征,快速匹配实时网络流量中的异常行为,识别潜在的APT活动。此外,数据集支持自动化威胁情报生成工具的开发,帮助组织构建预测性防御策略,例如通过时序分析预测攻击者的战术演进,从而提升整体安全态势的感知水平。
衍生相关工作
CTIMiner数据集衍生了一系列重要的学术与工程实践,其中最具代表性的是基于图结构的威胁事件关联分析框架。例如,Kim等人提出的通用关联分析模型利用该数据集中的事件相似性度量,构建了可追溯攻击者意图的图形化表示。此外,该数据集还促进了噪声过滤算法的研究,如通过上下文感知技术区分有效指标与系统噪声。在标准化方面,数据集与MISP等开源威胁情报平台的集成,进一步推动了STIX和OpenIOC格式的实践应用,为社区化威胁共享机制提供了数据支撑。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作