wikipunk/d3fend|网络安全数据集|知识图谱数据集
收藏D3FEND 数据集概述
数据集基本信息
- 语言: 英语
- 许可证: MIT
- 标签: 知识图谱, RDF, OWL, 本体论, 网络安全
- 注释创建者: 专家生成
- 数据集名称: D3FEND
- 数据集大小: 100K<n<1M
- 任务类别: 图机器学习
数据集特征
- 特征:
- subject: 字符串类型
- predicate: 字符串类型
- object: 字符串类型
数据集配置
- 配置名称: default
- 分割:
- train:
- 字节数: 46899451
- 样本数: 231842
- train:
数据集描述
D3FEND 数据集以知识图谱的形式编码了一个网络安全对策知识库。它精心组织了网络安全对策领域中的关键概念和关系,并将每个概念与网络安全文献中的相关参考文献相链接。
使用场景
研究人员和网络安全爱好者可以利用 D3FEND 数据集进行以下工作:
- 开发复杂的基于图的模型。
- 微调大型语言模型,专注于网络安全知识图谱的完善。
- 探索防御技术的复杂性和细微差别,映射到 MITRE ATT&CK、弱点(CWEs)和网络安全分类法。
- 深入了解网络安全领域中的本体开发和建模。
数据集构建和预处理
- 构建: 使用 D3FEND 本体的 beta 版本构建,包括 CWE 扩展。
- 导入和推理: 导入到 Protege 5.6.1 版本中,使用 Pellet 推理插件进行逻辑推理和验证。
- 一致性检查: 使用 Protege 中的 Debug Ontology 插件确保本体的一致性和连贯性。
- 导出、转换和压缩: 使用 Apache Jena 的命令行工具进行导出、过滤、格式转换和压缩。
数据集特征详细描述
- Subject: 三元组的主题,代表一个网络安全概念或实体,如特定的对策或 ATT&CK 技术。
- Predicate: 三元组的谓词,表示主题的属性或特征,或主题与对象之间的关系。
- Object: 三元组的对象,是与主题通过谓词相关联的实体,可以是另一个网络安全概念或主题的属性值。
数据集加载
使用 Hugging Face Datasets 库加载数据集的示例代码: python from datasets import load_dataset dataset = load_dataset(wikipunk/d3fend, split=train)
示例
以下是数据集中一个三元组的示例:
- Subject:
"<http://d3fend.mitre.org/ontologies/d3fend.owl#T1550.002>"
- Predicate:
"<http://d3fend.mitre.org/ontologies/d3fend.owl#may-be-associated-with>"
- Object:
"<http://d3fend.mitre.org/ontologies/d3fend.owl#T1218.014>"
该三元组表示 ATT&CK 技术 T1550.002
可能与 ATT&CK 技术 T1218.014
相关联。
致谢
该本体由 MITRE 公司开发,并根据 MIT 许可证授权。感谢作者们的工作,让我对网络安全建模有了新的认识。
引用
bibtex @techreport{kaloroumakis2021d3fend, title={Toward a Knowledge Graph of Cybersecurity Countermeasures}, author={Kaloroumakis, Peter E. and Smith, Michael J.}, institution={The MITRE Corporation}, year={2021}, url={https://d3fend.mitre.org/resources/D3FEND.pdf} }

中国交通事故深度调查(CIDAS)数据集
交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息,以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例,单个案例信息包含人、车 、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征,探索事故预防和损伤防护措施的关键数据源,为制定汽车安全法规和标准、完善汽车测评试验规程、
北方大数据交易中心 收录
Subway Dataset
该数据集包含了全球多个城市的地铁系统数据,包括车站信息、线路图、列车时刻表、乘客流量等。数据集旨在帮助研究人员和开发者分析和模拟城市交通系统,优化地铁运营和乘客体验。
www.kaggle.com 收录
Obstacle-dataset OD
该数据集用于十五种障碍物检测,包含VOC格式和YOLO训练的.txt文件,数据集中的图像来自VOC数据集、COCO数据集、TT100K数据集以及作者团队实地收集的图片。
github 收录
中国区域地面气象要素驱动数据集 v2.0(1951-2020)
中国区域地面气象要素驱动数据集(China Meteorological Forcing Data,以下简称 CMFD)是为支撑中国区域陆面、水文、生态等领域研究而研发的一套高精度、高分辨率、长时间序列数据产品。本页面发布的 CMFD 2.0 包含了近地面气温、气压、比湿、全风速、向下短波辐射通量、向下长波辐射通量、降水率等气象要素,时间分辨率为 3 小时,水平空间分辨率为 0.1°,时间长度为 70 年(1951~2020 年),覆盖了 70°E~140°E,15°N~55°N 空间范围内的陆地区域。CMFD 2.0 融合了欧洲中期天气预报中心 ERA5 再分析数据与气象台站观测数据,并在辐射、降水数据产品中集成了采用人工智能技术制作的 ISCCP-ITP-CNN 和 TPHiPr 数据产品,其数据精度较 CMFD 的上一代产品有显著提升。 CMFD 历经十余年的发展,其间发布了多个重要版本。2019 年发布的 CMFD 1.6 是完全采用传统数据融合技术制作的最后一个 CMFD 版本,而本次发布的 CMFD 2.0 则是 CMFD 转向人工智能技术制作的首个版本。此版本与 1.6 版具有相同的时空分辨率和基础变量集,但在其它诸多方面存在大幅改进。除集成了采用人工智能技术制作的辐射和降水数据外,在制作 CMFD 2.0 的过程中,研发团队尽可能采用单一来源的再分析数据作为输入并引入气象台站迁址信息,显著缓解了 CMFD 1.6 中因多源数据拼接和气象台站迁址而产生的虚假气候突变。同时,CMFD 2.0 数据的时间长度从 CMFD 1.6 的 40 年大幅扩展到了 70 年,并将继续向后延伸。CMFD 2.0 的网格空间范围虽然与 CMFD 1.6 相同,但其有效数据扩展到了中国之外,能够更好地支持跨境区域研究。为方便用户使用,CMFD 2.0 还在基础变量集之外提供了若干衍生变量,包括近地面相对湿度、雨雪分离降水产品等。此外,CMFD 2.0 摒弃了 CMFD 1.6 中通过 scale_factor 和 add_offset 参数将实型数据化为整型数据的压缩技术,转而直接将实型数据压缩存储于 NetCDF4 格式文件中,从而消除了用户使用数据时进行解压换算的困扰。 本数据集原定版本号为 1.7,但鉴于本数据集从输入数据到研制技术都较上一代数据产品有了大幅的改变,故将其版本号重新定义为 2.0。CMFD 2.0 的数据内容与此前宣传的 CMFD 1.7 基本一致,仅对 1983 年 7 月以后的向下短/长波辐射通量数据进行了更新,以修正其长期趋势存在的问题。2021 年至 2024 年的 CMFD 数据正在制作中,计划于 2025 年上半年发布,从而使 CMFD 2.0 延伸至 2024 年底。
国家青藏高原科学数据中心 收录
ChinaTravel
ChinaTravel是由南京大学国家重点实验室开发的一个真实世界基准数据集,专门用于评估语言代理在中国旅行规划中的应用。该数据集涵盖了中国10个最受欢迎城市的旅行信息,包括720个航班和5770趟列车,以及3413个景点、4655家餐厅和4124家酒店的详细信息。数据集通过问卷调查收集用户需求,并设计了一个可扩展的领域特定语言来支持自动评估。ChinaTravel旨在解决复杂的真实世界旅行规划问题,特别是在多兴趣点行程安排和用户偏好满足方面,为语言代理在旅行规划中的应用提供了重要的测试平台。
arXiv 收录