CTIMiner

arXiv2019-10-06 更新2024-08-06 收录

下载链接：

http://arxiv.org/abs/1811.10050v3

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集名为CTIMiner，通过收集公开的安全报告和恶意软件库中的威胁数据，存储在结构化格式中。数据集包含约640,000条记录，来自2008年1月至2019年6月发布的612份安全报告。

This dataset is named CTIMiner. It collects threat data from public cybersecurity reports and malware repositories, and stores the data in a structured format. The dataset contains approximately 640,000 records sourced from 612 cybersecurity reports published between January 2008 and June 2019.

创建时间：

2018-11-26

搜集汇总

数据集介绍

构建方式

在网络安全威胁情报研究领域，数据获取的局限性长期制约着分析技术的深入发展。CTIMiner数据集通过自动化系统构建，其核心流程涵盖三个阶段：首先从公开的APT安全报告中解析威胁指标，利用改进的IoC解析器提取URL、IP地址、哈希值等结构化数据；随后基于提取的恶意软件哈希值，从云端恶意软件存储库中获取补充分析信息，如互斥锁、代码签名等深层特征；最后对多源数据进行去重与降噪处理，并存储于MISP平台，形成包含约64万条记录、时间跨度为2008年至2019年的标准化数据集。

特点

该数据集显著特点体现在其多维度的数据整合能力与内在关联性。数据内容不仅涵盖传统威胁指标，更融合了恶意软件行为分析产生的非结构化特征，如运行时字符串与文件映射信息，从而拓展了威胁表征的深度。数据集以安全报告为单元组织事件，天然建立了事件间基于同一攻击活动的关联逻辑，为相关性分析提供了可靠基础。统计显示，约43%的数据源自恶意软件分析结果，其中26%为安全报告中未包含的新增信息，凸显了多源数据融合对情报完整性的增强价值。

使用方法

该数据集适用于支持网络威胁情报的进阶分析方法研究。在相关性分析方面，可利用事件内嵌的时空属性与数据重叠特征，构建威胁活动图谱，追溯攻击者行为模式；在时序分析中，结合恶意软件编译时间与报告发布时间，能够刻画攻击战役的演化轨迹。研究者可通过公开的源代码定制数据提取流程，并借助MISP平台的内置工具实现可视化关联挖掘。数据集特别适用于噪声过滤算法、跨事件相似性度量、以及基于概率模型的威胁预测等前沿课题的实证研究。

背景与挑战

背景概述

随着网络攻击日益复杂化，攻击者常通过伪装身份掩盖行踪，网络威胁情报（CTI）作为理解攻击意图、预测未来威胁的关键手段，逐渐受到学术界与工业界的重视。然而，CTI分析研究长期受限于真实数据难以获取，导致相关技术发展失衡。在此背景下，韩国大学信息安全研究生院的Daegeon Kim与Huy Kang Kim于2019年提出了CTIMiner系统，旨在通过自动化采集公开安全报告与恶意软件仓库数据，构建结构化威胁数据集。该系统覆盖2008年至2019年间612份安全报告，包含约64万条记录，为网络威胁分析提供了宝贵的开源数据基础，推动了协同研究的发展。

当前挑战

CTIMiner数据集致力于解决网络威胁情报分析领域的数据稀缺性挑战，其核心在于为攻击关联分析、意图推断等高级研究提供数据支撑。在构建过程中，面临多重技术难题：首先，数据源异构且非结构化，需设计高效解析器从安全报告中提取指标，但受限于正则表达式匹配，部分关键信息如攻击者组织、战术意图难以自动捕获；其次，恶意软件分析数据虽能补充报告内容，却引入大量环境噪声，需在误报与漏报间权衡过滤策略；此外，数据关联依赖字符串匹配，难以识别变体标识或语义相似实体，限制了深层关联分析的精度。这些挑战凸显了自动化威胁情报生成在数据质量、完整性及语义理解方面的局限。

常用场景

经典使用场景

在网络安全威胁情报分析领域，CTIMiner数据集为研究者提供了一个结构化的威胁数据资源，其经典使用场景在于支持高级持续性威胁（APT）事件的关联性分析。通过整合从公开安全报告和恶意软件存储库中提取的指标，该数据集使得研究者能够构建事件间的关联图，从而揭示攻击者的行为模式和潜在意图。例如，在分析拉撒路集团等知名威胁组织时，研究者可利用数据集中的哈希值、IP地址和代码签名等信息，追踪跨多个安全事件的共同特征，进而验证攻击活动的关联性。

实际应用

在实际应用层面，CTIMiner数据集被广泛应用于网络安全运营中心（SOC）和威胁情报平台，以增强对复杂攻击的检测与响应能力。安全分析师可利用该数据集中的结构化指标，如恶意软件哈希、网络地址和字符串特征，快速匹配实时网络流量中的异常行为，识别潜在的APT活动。此外，数据集支持自动化威胁情报生成工具的开发，帮助组织构建预测性防御策略，例如通过时序分析预测攻击者的战术演进，从而提升整体安全态势的感知水平。

衍生相关工作

CTIMiner数据集衍生了一系列重要的学术与工程实践，其中最具代表性的是基于图结构的威胁事件关联分析框架。例如，Kim等人提出的通用关联分析模型利用该数据集中的事件相似性度量，构建了可追溯攻击者意图的图形化表示。此外，该数据集还促进了噪声过滤算法的研究，如通过上下文感知技术区分有效指标与系统噪声。在标准化方面，数据集与MISP等开源威胁情报平台的集成，进一步推动了STIX和OpenIOC格式的实践应用，为社区化威胁共享机制提供了数据支撑。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集