five

security-kg

收藏
Hugging Face2026-04-05 更新2026-04-06 收录
下载链接:
https://huggingface.co/datasets/s0u9ata/security-kg
下载链接
链接失效反馈
官方服务:
资源简介:
安全知识图谱三元组数据集是一个综合性的网络安全数据集,包含来自15个权威来源(如ATT&CK、CAPEC、CWE、CVE等)的结构化数据,以主题-谓词-对象(SPO)三元组形式呈现。数据集规模介于1M到10M之间,涵盖企业、移动、ICS等多个配置,总三元组数超过1800万。每个三元组包含三个字符串字段:subject(实体ID)、predicate(属性或关系类型)和object(值或目标实体ID)。该数据集适用于知识图谱构建、图机器学习、威胁情报分析、漏洞优先级排序等场景,提供了丰富的实体属性和关系谓词,支持复杂的网络安全分析和自动化任务。

The Security Knowledge Graph Triple Dataset is a comprehensive cybersecurity dataset containing structured data from 15 authoritative sources such as ATT&CK, CAPEC, CWE, CVE, and others, presented in the form of Subject-Predicate-Object (SPO) triples. The dataset has a scale ranging from 1 million to 10 million, covers multiple configurations such as enterprise, mobile, industrial control systems (ICS), etc., with a total of more than 18 million triples. Each triple contains three string fields: subject (entity ID), predicate (attribute or relationship type), and object (value or target entity ID). This dataset is applicable to scenarios such as knowledge graph construction, graph machine learning, threat intelligence analysis, vulnerability prioritization and others, providing rich entity attributes and relational predicates to support complex cybersecurity analysis and automated tasks.
创建时间:
2026-04-04
原始信息汇总

安全知识图谱三元组数据集概述

数据集基本信息

  • 数据集名称: Security Knowledge Graph Triples (ATT&CK / CAPEC / CWE / CVE / CPE / D3FEND / ATLAS / CAR / ENGAGE / EPSS / KEV / Vulnrichment / GHSA / Sigma / ExploitDB)
  • 数据集地址: https://huggingface.co/datasets/s0u9ata/security-kg
  • 语言: 英语
  • 许可证: Apache-2.0
  • 任务类别: 图机器学习
  • 标签: 知识图谱、网络安全、MITRE ATT&CK、CAPEC、CWE、CVE、CPE、D3FEND、ATLAS、CAR、ENGAGE、EPSS、KEV、Vulnrichment、GHSA、Sigma、ExploitDB、STIX、威胁情报、三元组
  • 数据规模: 1M<n<10M
  • 最后更新: 2026-04-04T14:46:34Z

数据集配置与规模

数据集提供19个独立的配置,每个配置对应一个数据源或组合。

配置名称 描述 预估三元组数量 状态
enterprise (默认) Enterprise ATT&CK 42,041 Current
mobile Mobile ATT&CK 5,307 Current
ics ICS ATT&CK 3,756 Current
attack-all ATT&CK 组合(去重) 49,622 Current
capec CAPEC 攻击模式 8,114 Current
cwe CWE 弱点 14,565 Current
cve CVE 漏洞 3,544,309 Current
cpe CPE 平台枚举 12,399,534 Current
d3fend D3FEND 防御技术 8,154 Current
atlas ATLAS AI/ML 技术 1,420 Current
car CAR 分析 1,617 Current
engage ENGAGE 对手参与 1,464 Current
epss EPSS 漏洞利用预测分数 649,650 Current
kev KEV 已知被利用漏洞 17,054 Current
vulnrichment CISA Vulnrichment (SSVC, CVSS, CWE 增强) 656,207 Current
ghsa GitHub 安全公告 327,142 Current
sigma Sigma 检测规则 32,750 Current
exploitdb ExploitDB 公开漏洞利用 346,303 Current
combined 所有来源合并(去重) 18,057,905 Current

数据结构与模式

  • 格式: 以 Parquet 格式存储的主语-谓语-宾语 (SPO) 三元组
  • 特征:
    • subject (字符串): 实体ID。
    • predicate (字符串): 属性名或关系类型。
    • object (字符串): 值或目标实体ID。

数据来源

数据集整合了来自15个网络安全数据源的信息:

  1. ATT&CK: https://attack.mitre.org/
  2. CAPEC: https://capec.mitre.org/
  3. CWE: https://cwe.mitre.org/
  4. CVE: https://www.cve.org/
  5. CPE: https://nvd.nist.gov/products/cpe
  6. D3FEND: https://d3fend.mitre.org/
  7. ATLAS: https://atlas.mitre.org/
  8. CAR: https://car.mitre.org/
  9. ENGAGE: https://engage.mitre.org/
  10. EPSS: https://www.first.org/epss/
  11. KEV: https://www.cisa.gov/known-exploited-vulnerabilities-catalog
  12. Vulnrichment: https://github.com/cisagov/vulnrichment
  13. GHSA: https://github.com/github/advisory-database
  14. Sigma: https://github.com/SigmaHQ/sigma
  15. ExploitDB: https://gitlab.com/exploit-database/exploitdb

知识图谱结构概览

数据集构建了一个连接多个网络安全概念的知识图谱,核心关系路径如下:

Group/Campaign -> uses -> TECHNIQUE -> belongs-to-tactic -> Tactic TECHNIQUE 与 CAPEC、CWE、CVE、CPE、D3FEND、CAR、Sigma、ENGAGE、ATLAS 等实体通过多种关系(如 counters, detects, maps-to, related-weakness, affects-cpe)相互关联。 CVE 与 EPSS、KEV、GHSA、Vulnrichment、ExploitDB 等实体通过关系(如 epss-score, exploits-cve)连接。

主要谓语(关系/属性)类别

  • ATT&CK 实体属性: rdf:type, name, description, platform, domain, alias, is-subtechnique, belongs-to-tactic, shortname, url, created, modified
  • ATT&CK 关系谓语: uses, mitigates, subtechnique-of, detects, attributed-to
  • CAPEC 谓语: rdf:type, name, description, abstraction, status, likelihood, severity, child-of, related-weakness, maps-to-technique
  • CWE 谓语: rdf:type, name, description, abstraction, status, likelihood-of-exploit, child-of, related-attack-pattern, platform, consequence-scope, consequence-impact, introduction-phase
  • CVE 谓语: rdf:type, state, description, date-published, date-updated, assigner, vendor, product, affects-cpe, platform, related-weakness, cvss-base-score, cvss-severity
  • CPE 谓语: rdf:type, part, vendor, product, version, title, created, modified
  • D3FEND 谓语: rdf:type, name, definition, synonym, child-of, counters
  • ATLAS 谓语: rdf:type, name, description, maturity, belongs-to-tactic, subtechnique-of, related-attack-technique, related-attack-tactic, uses-technique, mitigates
  • CAR 谓语: rdf:type, title, description, platform, information-domain, analytic-type, detects-technique, detects-subtechnique, covers-tactic, maps-to-d3fend
  • ENGAGE 谓语: rdf:type, name, description, engages-technique, exploits-vulnerability-of, addresses-vulnerability
  • EPSS 谓语: epss-score, epss-percentile
  • KEV 谓语: rdf:type, kev-vendor, kev-product, kev-name, kev-description, kev-date-added, kev-due-date, kev-required-action, kev-ransomware-use, related-weakness
  • Vulnrichment 谓语: ssvc-exploitation, ssvc-automatable, ssvc-technical-impact, adp-cvss-base-score, adp-cvss-severity, adp-related-weakness, adp-affects-cpe
  • GHSA 谓语: rdf:type, summary, date-published, date-modified, severity, related-cve, related-weakness, cvss-vector, affects-package, fixed-in:<pkg>
  • Sigma 谓语: rdf:type, title, description, status, level, author, date, logsource-category, logsource-product, logsource-service, detects-technique, related-cve
  • ExploitDB 谓语: rdf:type, description, date-published, author, exploit-type, platform, verified, exploits-cve

数据集创建

  • 转换管道: 源代码和完整文档位于 https://github.com/S0UGATA/security-kg。
  • 过程: 下载源数据,提取实体属性三元组和关系三元组,并将其写入 Parquet 文件。

主要用途

  • 知识图谱构建: 将三元组加载到 Neo4j、RDFLib 或 NetworkX 中进行图谱查询。
  • 图机器学习: 在安全数据结构上训练图神经网络,用于链接预测等任务。
  • RAG / LLM 落地: 将三元组作为结构化上下文,用于检索增强生成。
  • 威胁情报: 查询组织、技术、漏洞和缓解措施之间的关系。
  • 漏洞优先级排序: 结合 CVE、EPSS 和 KEV 数据进行基于风险的优先级排序。
  • 安全自动化: 以编程方式将检测映射到技术和战术。
搜集汇总
数据集介绍
main_image_url
构建方式
在网络安全知识图谱构建领域,该数据集通过系统化整合15个权威安全数据源,采用自动化转换流程生成三元组结构。具体构建过程涉及从各官方渠道下载原始数据,涵盖STIX 2.0 JSON、XML、YAML及CSV等多种格式,随后通过定制化解析器提取实体属性与关系信息,最终统一转化为标准化的主语-谓语-宾语三元组形式,并以Parquet格式存储。整个流程确保数据来源的时效性与完整性,形成覆盖攻击技术、漏洞信息、防御措施等多维度的结构化知识网络。
特点
该数据集的核心特征在于其高度融合的跨源知识体系与标准化三元组表示。数据集囊括了从MITRE ATT&CK战术技术框架到CVE漏洞库、从CAPEC攻击模式到D3FEND防御技术等15类安全数据源,构建出超过1800万条三元组的庞大知识网络。其采用统一的RDF风格谓词体系,使得异构安全概念能够通过‘uses’、‘mitigates’、‘related-weakness’等标准化关系相互关联,形成从攻击链到防御响应的完整映射。这种结构化表示不仅支持复杂的图遍历查询,更为图神经网络训练提供了丰富的语义关系拓扑。
使用方法
数据集的使用主要围绕知识图谱构建、图机器学习及威胁情报分析三大场景展开。用户可通过HuggingFace datasets库直接加载特定配置模块,例如企业级ATT&CK数据或融合所有源的完整图谱。加载后的三元组可直接导入Neo4j等图数据库进行关联查询,或转换为NetworkX图结构用于GNN模型训练。在威胁情报实践中,可结合EPSS漏洞利用预测分数与KEV已知被利用漏洞目录,实现基于风险评级的漏洞优先级排序。此外,三元组结构天然适配检索增强生成技术,能为大语言模型提供精准的结构化安全知识上下文。
背景与挑战
背景概述
网络安全知识图谱领域长期面临多源异构威胁情报数据难以整合的挑战。Security Knowledge Graph Triples(security-kg)数据集由研究者S0UGATA于近期构建并持续更新,其核心目标在于将来自MITRE ATT&CK、CAPEC、CWE、CVE、CPE、D3FEND等十五个权威网络安全数据源的实体与关系,统一转化为标准化的主语-谓语-宾语(SPO)三元组形式。该数据集旨在为构建统一的安全知识图谱提供结构化基础,从而支持图机器学习、威胁情报关联分析以及检索增强生成等高级应用,显著提升了安全领域数据互操作性与自动化分析能力。
当前挑战
该数据集致力于解决网络安全威胁建模、漏洞优先级排序及攻击技战术关联分析等复杂领域问题,其核心挑战在于如何有效融合不同来源、不同格式且动态演化的海量安全数据,并建立精准的语义关联。在构建过程中,挑战具体体现在:其一,需设计通用模式以兼容各数据源独特的实体属性与关系逻辑,确保三元组语义一致性;其二,处理大规模数据(如超过1800万条三元组)时面临数据清洗、去重与实时更新的技术复杂性;其三,维护来自官方源头的原始数据准确性,并应对不同数据更新频率带来的版本同步问题。
常用场景
经典使用场景
在网络安全知识图谱构建领域,该数据集通过整合ATT&CK、CAPEC、CWE、CVE等15个权威威胁情报源,以标准化的三元组形式为图机器学习提供了结构化基础。研究人员能够利用这些三元组构建异构安全知识图谱,进而执行复杂的图查询与推理任务,例如追踪攻击组织使用的技术链或识别漏洞与防御措施之间的关联路径。这种结构化表示不仅支持图神经网络模型的训练,还便于进行链接预测和实体分类等高级分析,为安全态势的深度理解奠定了数据基石。
解决学术问题
该数据集有效解决了网络安全研究中多源异构数据融合与语义关联的难题。通过统一的三元组格式,它将分散的威胁情报、漏洞信息、攻击模式及防御技术整合为连贯的知识网络,使得学者能够系统性地探究攻击技术的演化规律、漏洞利用的传播机制以及防御策略的有效性。这种整合促进了跨领域的安全分析,例如将攻击技术与具体漏洞关联,或评估不同检测规则对特定威胁的覆盖程度,从而推动了威胁建模、风险评估和自动化响应等前沿研究方向的发展。
衍生相关工作
围绕该数据集,学术界和工业界已衍生出多项经典研究工作。例如,基于图谱嵌入的威胁检测模型利用三元组学习实体表示,以预测未知的攻击技术关联;知识图谱驱动的漏洞评估框架整合CVE、CWE和EPSS数据,实现了动态的风险评分。此外,一些研究专注于构建多源情报融合系统,通过图谱推理发现跨领域的攻击模式,或将D3FEND防御技术与ATT&CK攻击技术进行对抗性映射,为主动防御策略的设计提供了理论依据和实践工具。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作