five

KG-SaF-Data

收藏
arXiv2026-02-16 更新2026-02-18 收录
下载链接:
https://github.com/ivandiliso/kg-saf
下载链接
链接失效反馈
官方服务:
资源简介:
KG-SaF-Data是由巴里大学团队构建的综合性知识图谱数据集套件,包含10个基于6种不同知识图谱的数据集。这些数据集不仅包含传统的事实三元组,还整合了丰富的模式层知识(如OWL本体),并通过模块化和推理服务确保数据一致性与完备性。数据集规模涵盖数万至数十万条三元组,来源包括DBpedia、YAGO等知名知识图谱及特定领域图谱(如文化遗产、水资源等)。其构建流程通过SPARQL查询、本体合并、模块化等技术实现,并支持PyTorch等机器学习框架的张量表示。该资源旨在解决神经符号推理(NeSy)领域缺乏模式增强型基准数据集的问题,为知识图谱补全、链接预测等任务提供标准化评估平台。

KG-SaF-Data is a comprehensive knowledge graph dataset suite constructed by the team from the University of Bari, which includes 10 datasets based on 6 distinct knowledge graphs. These datasets not only contain traditional factual triples but also integrate rich schema-level knowledge such as OWL ontologies, and ensure data consistency and completeness through modularization and inference services. The scale of these datasets ranges from tens of thousands to hundreds of thousands of triples, with sources covering well-known knowledge graphs like DBpedia and YAGO, as well as domain-specific graphs such as cultural heritage and water resources. Its construction pipeline is implemented via technologies including SPARQL queries, ontology merging and modularization, and supports tensor representation in machine learning frameworks like PyTorch. This resource aims to address the shortage of schema-augmented benchmark datasets in the field of neural-symbolic reasoning (NeSy), providing a standardized evaluation platform for tasks such as knowledge graph completion and link prediction.
提供机构:
巴里大学·信息学系; 巴里大学·CILA
创建时间:
2026-02-16
搜集汇总
数据集介绍
构建方式
在知识图谱研究领域,构建兼具模式层与事实层的完整数据集是推动神经符号人工智能发展的关键基础。KG-SaF-Data通过其核心工作流KG-SaF-JDeX,系统性地从大规模知识图谱中提取并整合模式与事实。该流程首先对原始模式进行可满足性检查与推理闭包计算,确保模式逻辑一致且隐含知识得以显式化;随后基于度过滤策略抽取事实子集,保留个体间对象属性断言;继而执行一致性检查与实现推理,消除不一致三元组并补全隐含类断言;最终通过基于签名的模块化技术,生成与所选事实签名紧密对应的精简模式模块。整个过程支持从任意提供SPARQL端点的RDF/OWL知识图谱中提取数据,并包含面向机器学习工作流的数据分割与泄漏检查后处理步骤。
特点
该数据集系列最显著的特征在于其完整性,首次系统性地将丰富的本体论模式与大规模事实断言共同封装于统一资源中。相较于以往仅包含事实断言的基准数据集,KG-SaF-Data完整保留了源知识图谱中的复杂模式公理,包括类包含、等价与互斥关系,存在性与全称量词限制,以及对象属性的定义域、值域、层级与特性等。数据集经过严格的可满足性与一致性验证,确保了逻辑上的健全性,可直接供标准推理器使用。同时,其提供的两种版本——包含推理实现知识的MATERIALIZE版本与仅包含显式知识的BASE版本——为评估推理对机器学习任务的影响提供了对照条件。数据集覆盖通用与特定领域共六个知识图谱,呈现出多样的结构特性与表达力梯度。
使用方法
KG-SaF-Data设计为即用型资源,支持知识图谱推理与机器学习任务的双重需求。对于符号推理应用,数据集以标准OWL格式序列化,可直接加载至任何兼容的语义网推理引擎,执行一致性检查、分类或查询等任务。对于机器学习特别是知识图谱嵌入与链接预测研究,数据集提供了与PyKEEN等主流框架兼容的实用工具。用户可通过配套工具将符号知识映射为整数标识符,并转换为PyTorch张量表示,方便嵌入模型训练。数据集已预分割为训练、验证与测试集,并应用了覆盖性检查与逆关系泄漏过滤,符合标准评估设置。研究者可根据具体任务选择加载完整的模式与事实,或仅加载特定组件(如TBox、RBox或ABox),以评估神经符号方法在不同知识粒度下的性能。
背景与挑战
背景概述
知识图谱作为符号化知识表示的重要形式,在人工智能领域展现出广泛的应用前景。然而,现有知识图谱精化方法的评估数据集通常仅包含事实层面的三元组,忽略了丰富的模式层知识,这严重制约了依赖本体约束、逻辑推理及神经符号技术的算法性能评估。在此背景下,意大利巴里大学研究团队于2026年推出了KG-SaF-Data数据集套件,旨在构建同时包含模式与事实的完整数据集,为机器学习与推理服务提供标准化评估基准。该资源通过系统化工作流程从六大知识图谱中提取数据,不仅丰富了现有基准数据集,更首次引入了多个具有高度表达性模式的专业领域图谱,为神经符号人工智能的发展奠定了关键数据基础。
当前挑战
KG-SaF-Data面临的挑战主要体现在两个维度。在领域问题层面,该数据集致力于解决知识图谱精化任务中模式信息缺失的核心难题,传统链接预测方法仅利用事实三元组,难以评估融合本体公理的复杂推理模型性能,导致神经符号方法缺乏标准化测试平台。在构建过程层面,研究团队需克服多重技术障碍:如何从大规模知识图谱中提取自包含且一致的数据子集,如何处理模式中存在的逻辑不一致性,如何设计通用化工作流程以适应不同表达力的本体语言,以及如何将符号化知识转化为机器学习框架可处理的张量表示,同时确保数据分割过程避免信息泄漏问题。
常用场景
经典使用场景
在知识图谱与神经符号人工智能交叉领域,KG-SaF-Data数据集为评估知识图谱补全与推理算法提供了经典实验平台。该数据集不仅包含事实三元组,还整合了丰富的本体模式知识,使得研究者能够系统测试那些依赖复杂本体约束的神经符号方法。例如,在链接预测任务中,该数据集支持对嵌入模型进行增强评估,通过引入模式层面的公理来提升预测的语义准确性。
实际应用
在实际应用层面,KG-SaF-Data支持了多个领域知识图谱的构建与优化。例如,在文化遗产领域,基于ARCO知识图谱的派生数据集能够辅助文物关联发现与语义检索;在环境科学中,WHOW数据集有助于水质量知识的推理与预测。这些数据集以OWL格式序列化,可直接被推理引擎与机器学习框架加载,促进了跨领域知识服务的快速部署与迭代。
衍生相关工作
围绕KG-SaF-Data衍生的经典工作主要集中在神经符号推理方法的创新上。例如,研究者利用其丰富的模式公理开发了基于本体约束的负采样技术,提升了链接预测的语义合理性。同时,该数据集也催生了多篇关于知识图谱嵌入与推理融合的学术论文,如通过模式感知的图神经网络进行关系预测,以及利用公理证明生成可解释的预测结果,进一步拓展了知识图谱在复杂推理任务中的应用边界。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作