KG-SaF-Data

github2025-12-06 更新2025-12-27 收录

下载链接：

https://github.com/ivandiliso/kg-saf

下载链接

链接失效反馈

官方服务：

资源简介：

KG-SaF提供了一个工作流程（KG-SaF-JDeX）和经过整理的数据集（KG-SaF-Data），用于知识图谱细化（KGR）研究。该资源包括具有模式（本体）和基础事实的数据集，使其适用于机器学习和推理服务。数据集以OWL和TSV格式提供，易于在PyTorch和Protege中加载。

KG-SaF provides a workflow (KG-SaF-JDeX) and a curated dataset (KG-SaF-Data) for knowledge graph refinement (KGR) research. This resource includes datasets with schemas (ontologies) and ground truth, making it suitable for machine learning and reasoning services. The datasets are provided in OWL and TSV formats, which can be easily loaded in PyTorch and Protege.

创建时间：

2025-12-04

原始信息汇总

KG-SaF 数据集概述

数据集基本信息

数据集名称: KG-SaF (Knowledge Graph - Schemas and Facts)
核心内容: 提供用于知识图谱精化研究的精选数据集（KG-SaF-Data）与工作流程（KG-SaF-JDeX）。
主要特点: 数据集同时包含模式（本体）和事实数据，适用于机器学习和推理服务。
关键特性:
- 从具有丰富模式（RDFS/OWL2）的RDF知识图谱中提取数据集。
- 提供OWL和TSV格式的数据，便于在PyTorch和Protege中加载。
- 处理不一致性并利用推理来推断隐含知识。
- 提供与PyTorch和PyKEEN兼容的、可用于机器学习的张量表示。
- 提供模式分解为按主题划分的分区（本体组件的模块化）。

可用本体与数据集

下表列出了当前资源中包含的本体及其对应的数据集。

本体	数据集	描述逻辑片段
DBpedia	`DBPEDIA25-50K-C`, `DBPEDIA25-100K-C`	$mathcal{ALCHF}$
YAGO3	`YAGO3-39K-C`, `YAGO3-10-C`	$mathcal{ALHIF+}$
YAGO4	`YAGO4-20-C`	$mathcal{ALCHIF}$
ArCo	`ARCO25-20`, `ARCO25-10`, `ARCO25-5`	$mathcal{SROIQ}$
WHOW	`WHOW25-5`	$mathcal{SROIQ}$
ApuliaTravel	`ATRAVEL`	$mathcal{SRIQ}$

数据集文件结构

所有数据集均采用标准化格式，遵循描述逻辑形式化，将数据集分为ABox（实例级数据）、TBox（模式级信息）和RBox（角色与属性）。

📁 abox ......................................... # 断言框（实例级数据） │ ├── 📁 splits ................................. # 训练/测试/验证集划分 │ │ ├── 🦉 train.nt ............................. # 训练三元组 (N-Triples) │ │ ├── 🦉 valid.nt ............................. # 验证三元组 (N-Triples) │ │ ├── 🦉 test.nt .............................. # 测试三元组 (N-Triples) │ │ ├── 📄 train.tsv ............................ # 训练三元组 (TSV) │ │ ├── 📄 valid.tsv ............................ # 验证三元组 (TSV) │ │ └── 📄 test.tsv ............................. # 测试三元组 (TSV) │ │ │ ├── 🦉 individuals.owl ........................ # 个体定义 │ ├── 🦉 class_assertions.owl ................... # 个体类别断言 (OWL) │ ├── 📄 class_assertions.json .................. # 个体类别断言 (JSON) │ │ │ ├── 🦉 obj_prop_assertions.nt ................. # 合并的三元组 (N-Triples) │ └── 📄 obj_prop_assertions.tsv ................ # 合并的三元组 (TSV)

📁 rbox ......................................... # 角色框（关系与属性） │ ├── 🦉 roles.owl .............................. # 角色定义 │ ├── 📄 roles_domain_range.json ................ # 角色的定义域和值域 (JSON) │ └── 📄 roles_hierarchy.json ................... # 角色层次结构 (JSON)

📁 tbox ......................................... # 术语框（模式级信息） │ ├── 🦉 classes.owl ............................ # 类别非分类公理 │ ├── 🦉 taxonomy.owl ........................... # 层次分类法 │ └── 📄 taxonomy.json .......................... # 层次分类法 (JSON)

🦉 knowledge_graph.owl .......................... # 完整合并的 TBox + RBox + ABox 🦉 ontology.owl ................................. # 核心模块化模式

📁 mappings ..................................... # ID映射 │ ├── 🧾 class_to_id.json ....................... # 本体类别到ID的映射 │ ├── 🧾 individual_to_id.json .................. # 实体/实例到ID的映射 │ └── 🧾 object_property_to_id.json ............. # 对象属性到ID的映射

数据集解压与准备

使用数据集前，必须运行提供的数据集解压Notebook。该脚本自动执行以下任务：

将所有压缩的数据集和本体解压到 unpack 文件夹。
为每个数据集重新合并对象属性断言文件。
使用推理器（Robot OBO Tool）合并完整的知识图谱（TBox、RBox和ABox）。
将N-Triples文件转换为TSV格式，使其可用于PyKEEN等机器学习库。
将模式文件转换为JSON格式（例如，类别断言、分类法、角色层次结构），以便在Python中更轻松地加载和操作。

执行后，每个数据集文件夹将包含：

完全合并的知识图谱 (knowledge_graph.owl)
对象属性断言 (obj_prop_assertions.nt 和 .tsv)
训练、测试和验证集划分的TSV格式文件 (train.tsv, test.tsv, valid.tsv)
JSON格式的分类法、角色和类别断言 (taxonomy.json, roles_domain_range.json, roles_hierarchy.json, class_assetions.json)

教程

tutorial 文件夹中提供了示例Notebook，演示如何使用KG-SaF数据集和工具。

使用自定义 KnowledgeGraph 类加载PyTorch数据集
- 文件: tutorial/dataset_loader.ipynb
- 描述: 展示如何使用 KnowledgeGraph 类将KG-SaF数据集加载到PyTorch张量中，包括训练/测试/验证集划分和模式感知表示。
概念验证：使用PyKEEN在KG-SaF数据集上进行机器学习
- 文件: tutorial/kge_pykeen.ipynb
- 描述: 演示在KG-SaF数据集上使用PyKEEN训练知识图谱嵌入模型的基本流程，包括评估。

搜集汇总

数据集介绍

构建方式

在知识图谱研究领域，构建高质量数据集是支撑机器学习与推理任务的基础。KG-SaF-Data通过其配套工作流KG-SaF-JDeX，从具备丰富语义表达的RDF知识图谱中系统性地提取数据。该流程不仅从DBpedia、YAGO、ArCo等知名本体中抽取结构化的模式与实例，还严格遵循描述逻辑框架，将数据清晰地划分为术语箱、断言箱与角色箱。构建过程中，工作流主动处理知识不一致性，并利用推理机推断隐含知识，最终生成包含完整本体与事实的、经过精心整理的数据集。

特点

该数据集的核心特点在于其完整性与即用性。它不仅同时提供了模式层与事实层数据，还以OWL与TSV等多种标准化格式封装，确保既能被Protege等本体工具直接加载，也能无缝接入PyTorch、PyKEEN等机器学习框架。数据集内部进行了主题化模式分解，将庞杂的本体模块化，便于针对性研究。此外，所有数据均配备了预划分的训练、验证与测试集，并附有映射文件，将本体类、实体与关系映射为标识符，为知识图谱嵌入等任务提供了开箱即用的张量表示。

使用方法

使用该数据集前，需运行提供的解压脚本来恢复因存储限制而移除的次级文件。该脚本将自动解压数据，重新合并对象属性断言，并利用Robot工具融合生成完整的知识图谱文件。同时，它会将N-Triples格式的数据转换为更适合机器学习管道处理的TSV格式，并将模式文件转换为JSON以便于Python环境操作。完成预处理后，用户可通过配套教程中提供的`KnowledgeGraph`类将数据加载为PyTorch张量，或直接使用PyKEEN等库进行知识图谱嵌入模型的训练与评估，流程清晰且高效。

背景与挑战

背景概述

知识图谱作为人工智能领域的重要基础设施，其质量与完整性直接影响下游推理与机器学习任务的性能。KG-SaF-Data数据集由研究团队于近年构建，旨在为知识图谱精化研究提供一套兼具模式层与事实层的完整、规范化数据资源。该数据集从DBpedia、YAGO、ArCo等知名知识图谱中提取，并严格遵循描述逻辑形式化方法，将数据划分为TBox、RBox与ABox，以支持复杂的本体推理与机器学习模型训练。其核心研究问题聚焦于如何整合显式知识与隐式推理，以构建适用于联合学习与推理的标准化评估基准，对推动知识表示与推理、图神经网络等领域的算法发展具有显著影响力。

当前挑战

在知识图谱精化领域，核心挑战在于如何有效处理大规模、异构且富含逻辑约束的数据，以实现精准的知识补全与一致性验证。KG-SaF-Data针对此问题，需应对描述逻辑片段中存在的表达力与计算复杂性之间的平衡，例如处理SROIQ等复杂本体时的可扩展性难题。在构建过程中，数据集面临多重技术挑战：原始知识图谱中的模式与事实往往存在不一致性与冗余，需通过推理服务推断隐式知识并消除矛盾；同时，为适配机器学习流程，需将OWL等语义网格式高效转换为张量表示，并设计模块化模式分解方法以降低计算负荷。此外，存储限制迫使团队采用压缩分发与动态重组策略，增加了数据准备与使用的复杂性。

常用场景

经典使用场景

在知识图谱精炼领域，KG-SaF数据集为研究者提供了兼具本体架构与事实数据的完整资源。其经典使用场景在于支持知识图谱嵌入模型的训练与评估，例如通过PyKEEN等框架，利用其标准化的训练、验证与测试划分，进行链接预测或实体分类任务。数据集的结构化设计，特别是ABox、TBox与RBox的清晰分离，使得机器学习模型能够同时利用实例层面的三元组与模式层的语义约束，从而提升推理的准确性与可解释性。

衍生相关工作

围绕KG-SaF数据集，已衍生出多项经典研究工作，特别是在知识图谱嵌入与神经符号推理交叉领域。例如，利用其模式感知的张量表示，研究者开发了能够融合本体公理的嵌入模型，增强了推理的泛化能力。此外，基于其模块化本体的划分，出现了针对主题分区进行增量学习或迁移学习的方法，进一步拓展了知识图谱在动态环境下的应用潜力。

数据集最近研究