five

PleoMorphic-Attack-Embeddings

收藏
Hugging Face2026-01-24 更新2026-01-25 收录
下载链接:
https://huggingface.co/datasets/PleoMorph/PleoMorphic-Attack-Embeddings
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含PleoMorphic AI Exposure Management平台的攻击模式嵌入和训练数据。数据集包含核心训练数据和专门嵌入文件,总大小约为8.8GB。核心训练数据包括CONSOLIDATED_TRAINING_EMBEDDINGS.pkl、UNIFIED_MASTER_DATASET.pkl等文件,专门嵌入包括complete_g2pm_results.pkl、advanced_enterprise_embeddings_integrated.pkl等文件。关键统计数据显示,数据集包含133,877+个攻击模式、755个映射的MITRE ATT&CK技术、163,564个G2PM节点等。数据集设计用于与G2PM、GraphAny、GNODEFormer和G2PM-LDS等模型架构一起使用。
创建时间:
2026-01-24
原始信息汇总

PleoMorphic Attack Embeddings 数据集概述

数据集简介

该数据集包含用于PleoMorphic AI暴露管理平台的攻击模式嵌入向量和训练数据。

文件构成(总计约8.8GB)

核心训练数据

文件 大小 描述
CONSOLIDATED_TRAINING_EMBEDDINGS.pkl 2.8GB 包含163,564个G2PM节点和4,147个GraphAny图
UNIFIED_MASTER_DATASET.pkl 979MB 用于训练的统一主数据集
COMPLETE_ALL_EMBEDDINGS.pkl 900MB 完整的组合嵌入向量
COMPLETE_MASTER_EMBEDDINGS.pkl 885MB 包含133,877个攻击模式和755个MITRE技术
training_data/unified_training_dataset.pkl 841MB 训练/验证/测试集划分(97k/12k/12k样本)
ALL_REAL_EMBEDDINGS_MERGED.pkl 825MB 真实世界攻击模式嵌入向量
synthetic_attack_training_data.pkl 644MB 合成攻击训练数据
TRAINING_DATA_READY.pkl 642MB 生产就绪的训练数据集

专用嵌入向量

文件 大小 描述
complete_g2pm_results.pkl 97MB 完整的G2PM模型结果
advanced_enterprise_embeddings_integrated.pkl 73MB 企业攻击模式
comprehensive_import_embeddings.pkl 53MB 综合性导入嵌入向量
advanced_enterprise_embeddings_with_htb.pkl 45MB HTB增强的企业嵌入向量
advanced_enterprise_embeddings_complete.pkl 17MB 完整的企业嵌入向量

关键统计信息

  • 总攻击模式数:133,877+
  • 映射的MITRE ATT&CK技术数:755
  • G2PM节点数:163,564
  • GraphAny图数:4,147
  • 攻击链数:3,610+
  • 训练样本数:97,692
  • 验证样本数:12,211
  • 测试样本数:12,212

使用方法

python from huggingface_hub import hf_hub_download import pickle

下载主嵌入向量

file_path = hf_hub_download( repo_id="PleoMorph/PleoMorphic-Attack-Embeddings", filename="COMPLETE_MASTER_EMBEDDINGS.pkl", repo_type="dataset" )

with open(file_path, "rb") as f: embeddings = pickle.load(f)

print(f"Patterns: {len(embeddings[patterns])}") print(f"MITRE techniques: {len(embeddings[mitre_techniques])}")

模型架构

这些嵌入向量设计用于以下模型:

  • G2PM(图到模式匹配)- 模式提取
  • GraphAny - 分析性GNN解决方案
  • GNODEFormer - 谱图分析
  • G2PM-LDS - 时序攻击建模

完整模型文档请参见GitHub仓库中的 https://github.com/LucPlessier/PleoMorphic。

相关资源

  • GitHub:https://github.com/LucPlessier/PleoMorphic

许可证

专有许可证 - PleoMorphic Security

搜集汇总
数据集介绍
main_image_url
构建方式
在网络安全领域,攻击模式的表征学习对于威胁检测与暴露管理至关重要。PleoMorphic-Attack-Embeddings数据集的构建融合了真实世界攻击数据与合成生成技术,通过G2PM(图到模式匹配)模型从163,564个节点和4,147个GraphAny图中提取攻击模式,并映射至755种MITRE ATT&CK技术。该过程整合了统一主数据集与合成攻击训练数据,最终形成包含超过133,877个攻击模式的嵌入表示,确保了数据在覆盖广度和语义深度上的平衡。
使用方法
研究人员可通过Hugging Face Hub便捷下载数据集的核心文件,例如使用`hf_hub_download`函数获取`COMPLETE_MASTER_EMBEDDINGS.pkl`。加载后的嵌入数据可直接用于训练或评估图神经网络模型,支持攻击模式识别、威胁情报关联及暴露面管理任务。数据集已预先划分为训练、验证与测试子集,包含97,692个训练样本与各约12,000个验证测试样本,确保了模型开发流程的标准化与可复现性。
背景与挑战
背景概述
随着网络安全威胁日益复杂化,多态攻击的演变对传统防御体系构成严峻挑战。PleoMorphic-Attack-Embeddings数据集由PleoMorphic Security团队构建,旨在通过图神经网络与嵌入技术,系统化表征攻击模式及其动态关联。该数据集整合了超过13万条攻击模式,映射至755项MITRE ATT&CK技术框架,并融合了真实攻击数据与合成训练样本,为攻击暴露管理平台提供核心训练基础。其设计不仅支持图匹配与时空建模,还推动了威胁检测从规则驱动向智能推理的范式转变,显著提升了安全分析中对隐蔽攻击链的识别能力。
当前挑战
在网络安全领域,多态攻击的检测面临攻击模式动态演化与隐蔽关联的挑战。该数据集致力于解决攻击图嵌入的表示学习问题,需在复杂拓扑结构中捕捉攻击行为的语义与时序特征。构建过程中,数据集成需协调异构来源,包括真实攻击日志、合成数据及MITRE框架映射,确保嵌入向量的一致性与可扩展性。此外,图结构数据的规模与稀疏性对计算效率提出要求,而攻击模式的快速变异则要求嵌入模型具备持续适应能力,以维持检测效能的前瞻性。
常用场景
经典使用场景
在网络安全领域,攻击模式的动态演变对威胁检测提出了严峻挑战。PleoMorphic-Attack-Embeddings数据集通过整合超过13万条攻击模式嵌入和755种MITRE ATT&CK技术映射,为图神经网络(GNN)和模式匹配算法提供了标准化的训练基准。该数据集最经典的使用场景是支持G2PM(图到模式匹配)和GraphAny等模型进行攻击图分析,研究人员能够利用其丰富的图结构数据(包含超过16万个G2PM节点和数千个攻击链)来训练模型识别复杂攻击序列中的潜在威胁模式,从而提升自动化威胁狩猎的准确性与效率。
解决学术问题
该数据集有效解决了网络安全研究中攻击表征碎片化与泛化能力不足的学术难题。通过将异构的攻击数据统一为结构化嵌入,它使得机器学习模型能够跨越不同攻击场景学习通用特征表示,缓解了传统方法因依赖特定攻击签名而导致的零日攻击检测盲区。其意义在于推动了基于图的威胁建模从理论向实践过渡,为构建可解释、可扩展的攻击模式分析框架提供了数据基础,显著影响了自适应防御系统的研究范式。
实际应用
在实际应用层面,该数据集直接服务于PleoMorphic AI暴露管理平台,赋能企业安全运营中心(SOC)实现主动威胁暴露评估。安全团队可基于预训练的嵌入模型,对网络日志、终端行为数据进行实时图分析,快速定位潜在攻击路径并评估风险等级。此外,数据集中的合成攻击数据与真实世界嵌入相结合,支持红蓝对抗演练和防御策略优化,帮助组织构建更具韧性的安全态势感知体系。
数据集最近研究
最新研究方向
在网络安全领域,多态攻击的演变日益复杂,PleoMorphic-Attack-Embeddings数据集凭借其超过13万条攻击模式嵌入和755种MITRE ATT&CK技术映射,为前沿研究提供了关键支撑。当前研究聚焦于图神经网络与谱分析技术的融合,利用G2PM和GNODEFormer等架构,探索攻击链的时空动态建模,以提升威胁检测的实时性与准确性。这一方向不仅响应了高级持续性威胁(APT)的防御需求,还推动了人工智能在暴露管理平台中的实际应用,为构建自适应安全生态系统奠定了数据基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作