wikipunk/d3fend|网络安全数据集|知识图谱数据集

hugging_face2023-09-29 更新2024-03-04 收录

网络安全

知识图谱

下载链接：

https://hf-mirror.com/datasets/wikipunk/d3fend

下载链接

链接失效反馈

资源简介：

D3FEND数据集是一个网络安全对策知识图谱，详细编码了网络安全对策领域的关键概念和关系，并链接到网络安全文献中的相关参考资料。该数据集由三元组组成，每个三元组代表一个网络安全概念或概念之间的关系。数据集包括主体、谓词和对象三个特征，分别表示网络安全概念或实体、主体的属性或主体与对象之间的关系、以及与主体通过谓词关联的实体。数据集的构建和预处理包括从D3FEND本体构建全本体文件、导入Protege进行逻辑推理和验证、使用Debug Ontology插件检查本体的连贯性和一致性、使用Apache Jena工具导出推断的公理、过滤和格式转换、以及压缩结果文件。

提供机构：

wikipunk

原始信息汇总

D3FEND 数据集概述

数据集基本信息

语言: 英语
许可证: MIT
标签: 知识图谱, RDF, OWL, 本体论, 网络安全
注释创建者: 专家生成
数据集名称: D3FEND
数据集大小: 100K<n<1M
任务类别: 图机器学习

数据集特征

特征:
- subject: 字符串类型
- predicate: 字符串类型
- object: 字符串类型

数据集配置

配置名称: default
分割:
- train:
  - 字节数: 46899451
  - 样本数: 231842

数据集描述

D3FEND 数据集以知识图谱的形式编码了一个网络安全对策知识库。它精心组织了网络安全对策领域中的关键概念和关系，并将每个概念与网络安全文献中的相关参考文献相链接。

使用场景

研究人员和网络安全爱好者可以利用 D3FEND 数据集进行以下工作：

开发复杂的基于图的模型。
微调大型语言模型，专注于网络安全知识图谱的完善。
探索防御技术的复杂性和细微差别，映射到 MITRE ATT&CK、弱点（CWEs）和网络安全分类法。
深入了解网络安全领域中的本体开发和建模。

数据集构建和预处理

构建: 使用 D3FEND 本体的 beta 版本构建，包括 CWE 扩展。
导入和推理: 导入到 Protege 5.6.1 版本中，使用 Pellet 推理插件进行逻辑推理和验证。
一致性检查: 使用 Protege 中的 Debug Ontology 插件确保本体的一致性和连贯性。
导出、转换和压缩: 使用 Apache Jena 的命令行工具进行导出、过滤、格式转换和压缩。

数据集特征详细描述

Subject: 三元组的主题，代表一个网络安全概念或实体，如特定的对策或 ATT&CK 技术。
Predicate: 三元组的谓词，表示主题的属性或特征，或主题与对象之间的关系。
Object: 三元组的对象，是与主题通过谓词相关联的实体，可以是另一个网络安全概念或主题的属性值。

数据集加载

使用 Hugging Face Datasets 库加载数据集的示例代码： python from datasets import load_dataset dataset = load_dataset(wikipunk/d3fend, split=train)

示例

以下是数据集中一个三元组的示例：

Subject: "<http://d3fend.mitre.org/ontologies/d3fend.owl#T1550.002>"
Predicate: "<http://d3fend.mitre.org/ontologies/d3fend.owl#may-be-associated-with>"
Object: "<http://d3fend.mitre.org/ontologies/d3fend.owl#T1218.014>"

该三元组表示 ATT&CK 技术 T1550.002 可能与 ATT&CK 技术 T1218.014 相关联。

致谢

该本体由 MITRE 公司开发，并根据 MIT 许可证授权。感谢作者们的工作，让我对网络安全建模有了新的认识。

引用

bibtex @techreport{kaloroumakis2021d3fend, title={Toward a Knowledge Graph of Cybersecurity Countermeasures}, author={Kaloroumakis, Peter E. and Smith, Michael J.}, institution={The MITRE Corporation}, year={2021}, url={https://d3fend.mitre.org/resources/D3FEND.pdf} }

AI搜集汇总

数据集介绍

构建方式

D3FEND数据集的构建过程严谨而系统，基于D3FEND本体的beta版本，通过详细的README文档指导构建了`d3fend-full.owl`本体文件。该本体在Protege 5.6.1中导入，并使用Pellet推理器插件进行逻辑推理和验证，确保了本体的连贯性和一致性。随后，通过Apache Jena工具导出推断的公理，并使用`d3fend.rq`过滤器保留相关三元组，最终转换为Turtle和N-Triples格式，并进行压缩处理，以适应多样化的使用需求。

特点

D3FEND数据集以三元组的形式呈现，每个三元组由主体、谓词和客体组成，分别表示网络安全概念或实体、属性或关系、以及相关联的实体或属性值。该数据集涵盖了广泛的网络安全防御措施，支持复杂的关系建模，并提供了与MITRE ATT&CK、CWE等网络安全分类的映射，为研究人员提供了深入探索网络安全防御技术的丰富资源。

使用方法

使用D3FEND数据集时，首先需安装`datasets`和`rdflib`库。通过Hugging Face的Datasets库加载数据集后，每个样本将以字典形式呈现，包含`subject`、`predicate`和`object`三个键。用户可利用`rdflib.util.from_n3`解析N3格式的三元组，进一步处理和分析数据。该数据集适用于开发基于图的模型、微调大型语言模型以及深入研究网络安全本体建模等领域。

背景与挑战

背景概述

D3FEND数据集是由MITRE公司开发的一个网络安全对策知识图谱，旨在通过知识图谱的形式系统化地组织和表达网络安全领域的关键概念与关系。该数据集的核心研究问题是如何有效地构建和利用知识图谱来支持网络安全领域的研究与实践。D3FEND的构建基于专家生成的知识，涵盖了从基础概念到复杂防御技术的广泛内容，并与MITRE ATT&CK、CWE等网络安全标准进行了关联。其发布时间为2021年，主要研究人员包括Peter E. Kaloroumakis和Michael J. Smith。该数据集的推出为网络安全领域的知识图谱构建和图机器学习提供了重要的资源，推动了网络安全防御技术的精细化与智能化发展。

当前挑战

D3FEND数据集在构建过程中面临了多个挑战。首先，网络安全领域的知识复杂且动态变化，如何准确捕捉并表达这些知识是构建知识图谱的主要难题。其次，数据集的构建涉及从多种来源整合信息，包括文献引用和标准映射，这要求高度的专业知识和细致的验证过程。此外，知识图谱的逻辑一致性和完整性检查也是一大挑战，需要借助如Pellet推理器等工具进行严格验证。最后，数据集的格式转换和压缩过程需要高效且可靠的技术支持，以确保其在不同应用场景下的可用性。

常用场景

经典使用场景

D3FEND数据集的经典使用场景主要集中在网络安全领域的知识图谱构建与分析。研究人员可以利用该数据集开发复杂的基于图的模型，通过图神经网络等技术深入挖掘网络安全防御措施之间的复杂关系。此外，该数据集还可用于微调大型语言模型，专注于网络安全知识图谱的补全任务，从而提升模型在网络安全领域的推理能力。

解决学术问题

D3FEND数据集解决了网络安全领域中防御措施的系统化建模问题。通过构建一个包含防御措施及其关系的知识图谱，该数据集为研究人员提供了一个系统化的框架，用于探索防御措施与MITRE ATT&CK技术、常见弱点枚举（CWEs）以及网络安全分类法之间的关联。这不仅有助于提升网络安全防御措施的有效性，还为网络安全领域的知识图谱构建提供了新的研究范式。

衍生相关工作

D3FEND数据集的发布催生了一系列相关研究工作。例如，基于该数据集的知识图谱补全算法研究，旨在提升网络安全防御措施的自动化推荐能力。此外，还有研究者利用该数据集进行网络安全领域的图神经网络模型优化，以更好地捕捉防御措施之间的复杂关系。这些衍生工作不仅丰富了网络安全领域的研究内容，还为实际应用提供了技术支持。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

中国交通事故深度调查（CIDAS）数据集

交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息，以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例，单个案例信息包含人、车、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征，探索事故预防和损伤防护措施的关键数据源，为制定汽车安全法规和标准、完善汽车测评试验规程、

北方大数据交易中心收录

Subway Dataset

该数据集包含了全球多个城市的地铁系统数据，包括车站信息、线路图、列车时刻表、乘客流量等。数据集旨在帮助研究人员和开发者分析和模拟城市交通系统，优化地铁运营和乘客体验。

www.kaggle.com 收录

Obstacle-dataset OD

该数据集用于十五种障碍物检测，包含VOC格式和YOLO训练的.txt文件，数据集中的图像来自VOC数据集、COCO数据集、TT100K数据集以及作者团队实地收集的图片。

github 收录

中国区域地面气象要素驱动数据集 v2.0（1951-2020）

中国区域地面气象要素驱动数据集（China Meteorological Forcing Data，以下简称 CMFD）是为支撑中国区域陆面、水文、生态等领域研究而研发的一套高精度、高分辨率、长时间序列数据产品。本页面发布的 CMFD 2.0 包含了近地面气温、气压、比湿、全风速、向下短波辐射通量、向下长波辐射通量、降水率等气象要素，时间分辨率为 3 小时，水平空间分辨率为 0.1°，时间长度为 70 年（1951~2020 年），覆盖了 70°E~140°E，15°N~55°N 空间范围内的陆地区域。CMFD 2.0 融合了欧洲中期天气预报中心 ERA5 再分析数据与气象台站观测数据，并在辐射、降水数据产品中集成了采用人工智能技术制作的 ISCCP-ITP-CNN 和 TPHiPr 数据产品，其数据精度较 CMFD 的上一代产品有显著提升。 CMFD 历经十余年的发展，其间发布了多个重要版本。2019 年发布的 CMFD 1.6 是完全采用传统数据融合技术制作的最后一个 CMFD 版本，而本次发布的 CMFD 2.0 则是 CMFD 转向人工智能技术制作的首个版本。此版本与 1.6 版具有相同的时空分辨率和基础变量集，但在其它诸多方面存在大幅改进。除集成了采用人工智能技术制作的辐射和降水数据外，在制作 CMFD 2.0 的过程中，研发团队尽可能采用单一来源的再分析数据作为输入并引入气象台站迁址信息，显著缓解了 CMFD 1.6 中因多源数据拼接和气象台站迁址而产生的虚假气候突变。同时，CMFD 2.0 数据的时间长度从 CMFD 1.6 的 40 年大幅扩展到了 70 年，并将继续向后延伸。CMFD 2.0 的网格空间范围虽然与 CMFD 1.6 相同，但其有效数据扩展到了中国之外，能够更好地支持跨境区域研究。为方便用户使用，CMFD 2.0 还在基础变量集之外提供了若干衍生变量，包括近地面相对湿度、雨雪分离降水产品等。此外，CMFD 2.0 摒弃了 CMFD 1.6 中通过 scale_factor 和 add_offset 参数将实型数据化为整型数据的压缩技术，转而直接将实型数据压缩存储于 NetCDF4 格式文件中，从而消除了用户使用数据时进行解压换算的困扰。本数据集原定版本号为 1.7，但鉴于本数据集从输入数据到研制技术都较上一代数据产品有了大幅的改变，故将其版本号重新定义为 2.0。CMFD 2.0 的数据内容与此前宣传的 CMFD 1.7 基本一致，仅对 1983 年 7 月以后的向下短/长波辐射通量数据进行了更新，以修正其长期趋势存在的问题。2021 年至 2024 年的 CMFD 数据正在制作中，计划于 2025 年上半年发布，从而使 CMFD 2.0 延伸至 2024 年底。

国家青藏高原科学数据中心收录

ChinaTravel

ChinaTravel是由南京大学国家重点实验室开发的一个真实世界基准数据集，专门用于评估语言代理在中国旅行规划中的应用。该数据集涵盖了中国10个最受欢迎城市的旅行信息，包括720个航班和5770趟列车，以及3413个景点、4655家餐厅和4124家酒店的详细信息。数据集通过问卷调查收集用户需求，并设计了一个可扩展的领域特定语言来支持自动评估。ChinaTravel旨在解决复杂的真实世界旅行规划问题，特别是在多兴趣点行程安排和用户偏好满足方面，为语言代理在旅行规划中的应用提供了重要的测试平台。

arXiv 收录