PleoMorphic-Attack-Embeddings

Hugging Face2026-01-24 更新2026-01-25 收录

下载链接：

https://huggingface.co/datasets/PleoMorph/PleoMorphic-Attack-Embeddings

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含PleoMorphic AI Exposure Management平台的攻击模式嵌入和训练数据。数据集包含核心训练数据和专门嵌入文件，总大小约为8.8GB。核心训练数据包括CONSOLIDATED_TRAINING_EMBEDDINGS.pkl、UNIFIED_MASTER_DATASET.pkl等文件，专门嵌入包括complete_g2pm_results.pkl、advanced_enterprise_embeddings_integrated.pkl等文件。关键统计数据显示，数据集包含133,877+个攻击模式、755个映射的MITRE ATT&CK技术、163,564个G2PM节点等。数据集设计用于与G2PM、GraphAny、GNODEFormer和G2PM-LDS等模型架构一起使用。

创建时间：

2026-01-24

原始信息汇总

PleoMorphic Attack Embeddings 数据集概述

数据集简介

该数据集包含用于PleoMorphic AI暴露管理平台的攻击模式嵌入向量和训练数据。

文件构成（总计约8.8GB）

核心训练数据

文件	大小	描述
`CONSOLIDATED_TRAINING_EMBEDDINGS.pkl`	2.8GB	包含163,564个G2PM节点和4,147个GraphAny图
`UNIFIED_MASTER_DATASET.pkl`	979MB	用于训练的统一主数据集
`COMPLETE_ALL_EMBEDDINGS.pkl`	900MB	完整的组合嵌入向量
`COMPLETE_MASTER_EMBEDDINGS.pkl`	885MB	包含133,877个攻击模式和755个MITRE技术
`training_data/unified_training_dataset.pkl`	841MB	训练/验证/测试集划分（97k/12k/12k样本）
`ALL_REAL_EMBEDDINGS_MERGED.pkl`	825MB	真实世界攻击模式嵌入向量
`synthetic_attack_training_data.pkl`	644MB	合成攻击训练数据
`TRAINING_DATA_READY.pkl`	642MB	生产就绪的训练数据集

专用嵌入向量

文件	大小	描述
`complete_g2pm_results.pkl`	97MB	完整的G2PM模型结果
`advanced_enterprise_embeddings_integrated.pkl`	73MB	企业攻击模式
`comprehensive_import_embeddings.pkl`	53MB	综合性导入嵌入向量
`advanced_enterprise_embeddings_with_htb.pkl`	45MB	HTB增强的企业嵌入向量
`advanced_enterprise_embeddings_complete.pkl`	17MB	完整的企业嵌入向量

关键统计信息

总攻击模式数：133,877+
映射的MITRE ATT&CK技术数：755
G2PM节点数：163,564
GraphAny图数：4,147
攻击链数：3,610+
训练样本数：97,692
验证样本数：12,211
测试样本数：12,212

使用方法

python from huggingface_hub import hf_hub_download import pickle

下载主嵌入向量

file_path = hf_hub_download( repo_id="PleoMorph/PleoMorphic-Attack-Embeddings", filename="COMPLETE_MASTER_EMBEDDINGS.pkl", repo_type="dataset" )

with open(file_path, "rb") as f: embeddings = pickle.load(f)

print(f"Patterns: {len(embeddings[patterns])}") print(f"MITRE techniques: {len(embeddings[mitre_techniques])}")

模型架构

这些嵌入向量设计用于以下模型：

G2PM（图到模式匹配）- 模式提取
GraphAny - 分析性GNN解决方案
GNODEFormer - 谱图分析
G2PM-LDS - 时序攻击建模

完整模型文档请参见GitHub仓库中的 https://github.com/LucPlessier/PleoMorphic。

许可证

专有许可证 - PleoMorphic Security

搜集汇总

数据集介绍

构建方式

在网络安全领域，攻击模式的表征学习对于威胁检测与暴露管理至关重要。PleoMorphic-Attack-Embeddings数据集的构建融合了真实世界攻击数据与合成生成技术，通过G2PM（图到模式匹配）模型从163,564个节点和4,147个GraphAny图中提取攻击模式，并映射至755种MITRE ATT&CK技术。该过程整合了统一主数据集与合成攻击训练数据，最终形成包含超过133,877个攻击模式的嵌入表示，确保了数据在覆盖广度和语义深度上的平衡。

使用方法

研究人员可通过Hugging Face Hub便捷下载数据集的核心文件，例如使用`hf_hub_download`函数获取`COMPLETE_MASTER_EMBEDDINGS.pkl`。加载后的嵌入数据可直接用于训练或评估图神经网络模型，支持攻击模式识别、威胁情报关联及暴露面管理任务。数据集已预先划分为训练、验证与测试子集，包含97,692个训练样本与各约12,000个验证测试样本，确保了模型开发流程的标准化与可复现性。

背景与挑战

背景概述

随着网络安全威胁日益复杂化，多态攻击的演变对传统防御体系构成严峻挑战。PleoMorphic-Attack-Embeddings数据集由PleoMorphic Security团队构建，旨在通过图神经网络与嵌入技术，系统化表征攻击模式及其动态关联。该数据集整合了超过13万条攻击模式，映射至755项MITRE ATT&CK技术框架，并融合了真实攻击数据与合成训练样本，为攻击暴露管理平台提供核心训练基础。其设计不仅支持图匹配与时空建模，还推动了威胁检测从规则驱动向智能推理的范式转变，显著提升了安全分析中对隐蔽攻击链的识别能力。

当前挑战

在网络安全领域，多态攻击的检测面临攻击模式动态演化与隐蔽关联的挑战。该数据集致力于解决攻击图嵌入的表示学习问题，需在复杂拓扑结构中捕捉攻击行为的语义与时序特征。构建过程中，数据集成需协调异构来源，包括真实攻击日志、合成数据及MITRE框架映射，确保嵌入向量的一致性与可扩展性。此外，图结构数据的规模与稀疏性对计算效率提出要求，而攻击模式的快速变异则要求嵌入模型具备持续适应能力，以维持检测效能的前瞻性。

常用场景

经典使用场景

在网络安全领域，攻击模式的动态演变对威胁检测提出了严峻挑战。PleoMorphic-Attack-Embeddings数据集通过整合超过13万条攻击模式嵌入和755种MITRE ATT&CK技术映射，为图神经网络（GNN）和模式匹配算法提供了标准化的训练基准。该数据集最经典的使用场景是支持G2PM（图到模式匹配）和GraphAny等模型进行攻击图分析，研究人员能够利用其丰富的图结构数据（包含超过16万个G2PM节点和数千个攻击链）来训练模型识别复杂攻击序列中的潜在威胁模式，从而提升自动化威胁狩猎的准确性与效率。

解决学术问题

该数据集有效解决了网络安全研究中攻击表征碎片化与泛化能力不足的学术难题。通过将异构的攻击数据统一为结构化嵌入，它使得机器学习模型能够跨越不同攻击场景学习通用特征表示，缓解了传统方法因依赖特定攻击签名而导致的零日攻击检测盲区。其意义在于推动了基于图的威胁建模从理论向实践过渡，为构建可解释、可扩展的攻击模式分析框架提供了数据基础，显著影响了自适应防御系统的研究范式。

实际应用

在实际应用层面，该数据集直接服务于PleoMorphic AI暴露管理平台，赋能企业安全运营中心（SOC）实现主动威胁暴露评估。安全团队可基于预训练的嵌入模型，对网络日志、终端行为数据进行实时图分析，快速定位潜在攻击路径并评估风险等级。此外，数据集中的合成攻击数据与真实世界嵌入相结合，支持红蓝对抗演练和防御策略优化，帮助组织构建更具韧性的安全态势感知体系。

数据集最近研究

PleoMorphic-Attack-Embeddings

PleoMorphic Attack Embeddings 数据集概述

数据集简介

文件构成（总计约8.8GB）

核心训练数据

专用嵌入向量

关键统计信息

使用方法

下载主嵌入向量

模型架构

相关资源

许可证