KG-SaF-Data
收藏KG-SaF 数据集概述
数据集基本信息
- 数据集名称: KG-SaF (Knowledge Graph - Schemas and Facts)
- 核心内容: 提供用于知识图谱精化研究的精选数据集(KG-SaF-Data)与工作流程(KG-SaF-JDeX)。
- 主要特点: 数据集同时包含模式(本体)和事实数据,适用于机器学习和推理服务。
- 关键特性:
- 从具有丰富模式(RDFS/OWL2)的RDF知识图谱中提取数据集。
- 提供OWL和TSV格式的数据,便于在PyTorch和Protege中加载。
- 处理不一致性并利用推理来推断隐含知识。
- 提供与PyTorch和PyKEEN兼容的、可用于机器学习的张量表示。
- 提供模式分解为按主题划分的分区(本体组件的模块化)。
可用本体与数据集
下表列出了当前资源中包含的本体及其对应的数据集。
| 本体 | 数据集 | 描述逻辑片段 |
|---|---|---|
| DBpedia | DBPEDIA25-50K-C, DBPEDIA25-100K-C |
$mathcal{ALCHF}$ |
| YAGO3 | YAGO3-39K-C, YAGO3-10-C |
$mathcal{ALHIF+}$ |
| YAGO4 | YAGO4-20-C |
$mathcal{ALCHIF}$ |
| ArCo | ARCO25-20, ARCO25-10, ARCO25-5 |
$mathcal{SROIQ}$ |
| WHOW | WHOW25-5 |
$mathcal{SROIQ}$ |
| ApuliaTravel | ATRAVEL |
$mathcal{SRIQ}$ |
数据集文件结构
所有数据集均采用标准化格式,遵循描述逻辑形式化,将数据集分为ABox(实例级数据)、TBox(模式级信息)和RBox(角色与属性)。
📁 abox ......................................... # 断言框(实例级数据) │ ├── 📁 splits ................................. # 训练/测试/验证集划分 │ │ ├── 🦉 train.nt ............................. # 训练三元组 (N-Triples) │ │ ├── 🦉 valid.nt ............................. # 验证三元组 (N-Triples) │ │ ├── 🦉 test.nt .............................. # 测试三元组 (N-Triples) │ │ ├── 📄 train.tsv ............................ # 训练三元组 (TSV) │ │ ├── 📄 valid.tsv ............................ # 验证三元组 (TSV) │ │ └── 📄 test.tsv ............................. # 测试三元组 (TSV) │ │ │ ├── 🦉 individuals.owl ........................ # 个体定义 │ ├── 🦉 class_assertions.owl ................... # 个体类别断言 (OWL) │ ├── 📄 class_assertions.json .................. # 个体类别断言 (JSON) │ │ │ ├── 🦉 obj_prop_assertions.nt ................. # 合并的三元组 (N-Triples) │ └── 📄 obj_prop_assertions.tsv ................ # 合并的三元组 (TSV)
📁 rbox ......................................... # 角色框(关系与属性) │ ├── 🦉 roles.owl .............................. # 角色定义 │ ├── 📄 roles_domain_range.json ................ # 角色的定义域和值域 (JSON) │ └── 📄 roles_hierarchy.json ................... # 角色层次结构 (JSON)
📁 tbox ......................................... # 术语框(模式级信息) │ ├── 🦉 classes.owl ............................ # 类别非分类公理 │ ├── 🦉 taxonomy.owl ........................... # 层次分类法 │ └── 📄 taxonomy.json .......................... # 层次分类法 (JSON)
🦉 knowledge_graph.owl .......................... # 完整合并的 TBox + RBox + ABox 🦉 ontology.owl ................................. # 核心模块化模式
📁 mappings ..................................... # ID映射 │ ├── 🧾 class_to_id.json ....................... # 本体类别到ID的映射 │ ├── 🧾 individual_to_id.json .................. # 实体/实例到ID的映射 │ └── 🧾 object_property_to_id.json ............. # 对象属性到ID的映射
数据集解压与准备
使用数据集前,必须运行提供的数据集解压Notebook。该脚本自动执行以下任务:
- 将所有压缩的数据集和本体解压到
unpack文件夹。 - 为每个数据集重新合并对象属性断言文件。
- 使用推理器(Robot OBO Tool)合并完整的知识图谱(TBox、RBox和ABox)。
- 将N-Triples文件转换为TSV格式,使其可用于PyKEEN等机器学习库。
- 将模式文件转换为JSON格式(例如,类别断言、分类法、角色层次结构),以便在Python中更轻松地加载和操作。
执行后,每个数据集文件夹将包含:
- 完全合并的知识图谱 (
knowledge_graph.owl) - 对象属性断言 (
obj_prop_assertions.nt和.tsv) - 训练、测试和验证集划分的TSV格式文件 (
train.tsv,test.tsv,valid.tsv) - JSON格式的分类法、角色和类别断言 (
taxonomy.json,roles_domain_range.json,roles_hierarchy.json,class_assetions.json)
教程
tutorial 文件夹中提供了示例Notebook,演示如何使用KG-SaF数据集和工具。
- 使用自定义
KnowledgeGraph类加载PyTorch数据集- 文件:
tutorial/dataset_loader.ipynb - 描述: 展示如何使用
KnowledgeGraph类将KG-SaF数据集加载到PyTorch张量中,包括训练/测试/验证集划分和模式感知表示。
- 文件:
- 概念验证:使用PyKEEN在KG-SaF数据集上进行机器学习
- 文件:
tutorial/kge_pykeen.ipynb - 描述: 演示在KG-SaF数据集上使用PyKEEN训练知识图谱嵌入模型的基本流程,包括评估。
- 文件:




