tumeteor/Security-TTP-Mapping

Name: tumeteor/Security-TTP-Mapping
Creator: tumeteor
Published: 2024-01-23 09:52:13
License: 暂无描述

Hugging Face2024-01-23 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/tumeteor/Security-TTP-Mapping

下载链接

链接失效反馈

官方服务：

资源简介：

Security Attack Pattern Recognition Datasets是一个用于安全攻击模式识别或映射任务的数据集，包含TRAM、Procedure+和Expert三个子数据集。这些数据集主要用于文本分类、问答、零样本分类和句子相似性任务，涉及安全、TTP映射、MITRE ATT&CK等领域。数据集经过处理，分为训练、验证和测试集，包含超过600个多层次分类任务。由于安全性质，数据集包含有关恶意软件和其他安全方面的文本信息。

提供机构：

tumeteor

原始信息汇总

数据集概述

基本信息

许可证: cc
任务类别:
- 文本分类
- 问答
- 零样本分类
- 句子相似度
语言: 英语
标签:
- 安全
- TTP 映射
- MITRE ATT&CK
- 极端多标签
- 多标签分类
名称: Security Attack Pattern Recognition Datasets
大小类别: 1K<n<10K

数据集描述

任务: 安全攻击模式（TTP）识别或映射任务
内容: 包含关于恶意软件和其他安全方面的文本信息
类型: 多标签分类
类别数量: 超过600个层次类别

数据集详情

TRAM

来源: CTID
处理: 从所有来源收集、去除重复、解决噪声/过短文本和噪声标签，重新映射到MITRE ATTACK 12.0
分割: 分为训练、验证和测试集

Procedure+

子数据集:
- Procedures: 来自MITRE，收集并处理v12.0的所有程序示例，分为训练、验证和测试集
- Derived procedures: 从相关文章中爬取URL引用，提取原始文本并处理，分为训练、验证和测试集

Expert

构建: 从大量高质量威胁报告中构建
标注: 由资深安全专家精心选择并标注
分割: 预分为训练、验证和测试集，测试集中平均每个文本有约4个标签

引用

@inproceedings{nguyen-srndic-neth-ttpm, title = "Noise Contrastive Estimation-based Matching Framework for Low-resource Security Attack Pattern Recognition", author = "Nguyen, Tu and Šrndić, Nedim and Neth, Alexander", booktitle = "Proceedings of the 18th Conference of the European Chapter of the Association for Computational Linguistics", month = mar, year = "2024", publisher = "Association for Computational Linguistics", abstract = "Tactics, Techniques and Procedures (TTPs) represent sophisticated attack patterns in the cybersecurity domain, described encyclopedically in textual knowledge bases. Identifying TTPs in cybersecurity writing, often called TTP mapping, is an important and challenging task. Conventional learning approaches often target the problem in the classical multi-class or multilabel classification setting. This setting hinders the learning ability of the model due to a large number of classes (i.e., TTPs), the inevitable skewness of the label distribution and the complex hierarchical structure of the label space. We formulate the problem in a different learning paradigm, where the assignment of a text to a TTP label is decided by the direct semantic similarity between the two, thus reducing the complexity of competing solely over the large labeling space. To that end, we propose a neural matching architecture with an effective sampling-based learn-to-compare mechanism, facilitating the learning process of the matching model despite constrained resources.", }

许可证

本项目基于Creative Commons CC BY License, version 4.0。

搜集汇总

数据集介绍

构建方式

tumeteor/Security-TTP-Mapping数据集的构建，涉及了对MITRE ATT&CK映射数据集的整理与划分。具体而言，研究者们从CTID获取原始数据，经过去重、清理噪声数据、标签映射至MITRE ATTACK 12.0版本后，将其细分为训练集、验证集和测试集。此外，数据集还包括了从相关文章中提取的与程序示例相关的原始文本，这些文本同样经过处理并划分为相应的数据集部分。

特点

该数据集显著的特征在于其涉及的安全性质文本信息，包含恶意软件及其他安全方面的描述。它是一个具有超过600个层级类别的新兴且具有挑战性的多标签分类自然语言处理任务。数据集的构建充分考虑了标签空间的复杂层级结构和标签分布的偏斜问题，为模型学习提供了丰富的多样性和深度。

使用方法

使用tumeteor/Security-TTP-Mapping数据集时，用户可以直接利用已划分好的训练集、验证集和测试集进行模型训练和评估。由于数据集采用了Creative Commons CC BY License 4.0授权，用户在遵循相应的许可协议下，可以自由地在其研究和项目中引用和使用这些数据。此外，使用时还需注意，数据集包含敏感安全信息，应妥善处理以保证信息安全。

背景与挑战

背景概述

在网络安全领域，对战术、技术和程序（TTPs）的识别与映射是一项至关重要的任务。tumeteor/Security-TTP-Mapping数据集，创建于近年，由Tu Nguyen、Nedim Šrndić和Alexander Neth等研究人员共同开发。该数据集以MITRE ATT&CK框架为基础，提供了超过600个层次分类的多标签分类自然语言处理任务。其旨在通过对安全威胁报告的文本内容进行分析，实现对攻击模式的识别和映射，对于加强网络安全防御策略具有重要的研究价值。

当前挑战

该数据集在构建过程中面临的挑战包括：首先，安全领域的文本数据往往包含关于恶意软件和其他安全方面的敏感信息，这对数据预处理和隐私保护提出了较高的要求。其次，数据集的多标签特性以及标签分布的偏斜，使得传统的学习模型难以有效处理。此外，标签空间的复杂层次结构也给模型的训练和预测带来了额外的难度。在解决领域问题上，如何准确地将文本信息与TTPs进行匹配，减少误判和漏判，是该数据集面临的另一个挑战。

常用场景

经典使用场景

在网络安全领域，准确识别攻击模式是至关重要的一环。tumeteor/Security-TTP-Mapping数据集为此提供了丰富的资源，其经典使用场景主要在于文本分类任务中，通过对安全威胁报告的自动化处理，将文本映射至相应的TTP（Tactics, Techniques, and Procedures）类别。该数据集支持多标签分类，能够处理文本中涉及的多个安全威胁类别，为研究人员提供了一种高效的方式来训练模型以识别和分类复杂的网络安全事件。

衍生相关工作

基于此数据集，已经衍生出了一系列相关的研究工作，如提出噪声对比估计匹配框架以应对资源匮乏的TTP识别问题。这些研究进一步拓展了数据集的应用范围，不仅在网络安全领域产生了重要影响，也为自然语言处理和机器学习领域带来了新的研究方向和方法论。

数据集最近研究