ontolearner-general_knowledge
收藏Hugging Face2025-05-06 更新2025-05-07 收录
下载链接:
https://huggingface.co/datasets/SciKnowOrg/ontolearner-general_knowledge
下载链接
链接失效反馈官方服务:
资源简介:
General Knowledge Domain Ontologies数据集是一个包含广义本体和上层词汇的集合,旨在为跨学科语义建模和知识表示提供基础框架。它包括多个本体,如Common Core Ontologies (CCO)、DBpedia Ontology等,每个本体都有详细的类和属性定义。该数据集可用于支持高级数据分析、信息检索和人工智能应用中的一致和连贯的概念表示。
创建时间:
2025-05-03
原始信息汇总
数据集概述:General Knowledge Domain Ontologies
基本信息
- 许可证: MIT
- 语言: 英语 (en)
- 标签: OntoLearner, ontology-learning, general_knowledge
- 数据集名称: Agricultural
数据集描述
该数据集涵盖广泛领域的本体和上层词汇,旨在用于跨学科的语义建模和知识表示。该领域在促进不同领域之间的互操作性和数据集成方面至关重要,通过提供一个基础框架来构建和链接信息。其重要性在于能够一致且连贯地表示一般概念,从而支持高级数据分析、信息检索和人工智能应用。
包含的本体
| 本体ID | 全称 | 类数量 | 属性数量 | 最后更新日期 |
|---|---|---|---|---|
| CCO | Common Core Ontologies (CCO) | 1539 | 277 | 2024-11-06 |
| DBpedia | DBpedia Ontology (DBpedia) | 790 | 3029 | 2008-11-17 |
| DublinCore | Dublin Core Vocabulary (DublinCore) | 11 | 0 | February 17, 2017 |
| EDAM | The ontology of data analysis and management (EDAM) | 3513 | 12 | 24.09.2024 |
| GIST | GIST Upper Ontology (GIST) | 199 | 113 | 2024-Feb-27 |
| IAO | Information Artifact Ontology (IAO) | 292 | 57 | 2022-11-07 |
| PROV | PROV Ontology (PROV-O) | 39 | 50 | 2013-04-30 |
| RO | Relation Ontology (RO) | 88 | 673 | 2024-04-24 |
| SchemaOrg | Schema.org Ontology (SchemaOrg) | 3881 | 1485 | 2024-11-22 |
| UMBEL | Upper Mapping and Binding Exchange Layer (UMBEL) Vocabulary | 99 | 42 | May 10, 2016 |
| YAGO | YAGO Ontology (YAGO) | N/A | N/A | April, 2024 |
数据集文件
每个本体目录包含以下文件:
<ontology_id>.<format>- 原始本体文件term_typings.json- 术语到类型映射的数据集taxonomies.json- 分类关系的数据集non_taxonomic_relations.json- 非分类关系的数据集<ontology_id>.rst- 描述本体的文档
用途
这些数据集旨在用于本体学习研究和应用。
搜集汇总
数据集介绍

构建方式
在知识表示与语义建模领域,该数据集通过系统整合多源通用知识本体构建而成。核心方法涵盖对Common Core、DBpedia等11个权威本体的结构化解析,采用自动化流程提取术语类型映射、分类关系与非分类关系,并保留原始本体文件与完整文档说明。每个本体均以标准化格式存储,包含术语类型标注、分类体系和非分类关系三个关键数据文件,构建过程注重保持本体间的横向可比性与版本时效性。
特点
作为跨学科语义建模的基础设施,该数据集最显著的特征在于其覆盖广度与结构深度。既包含SchemaOrg等大规模通用本体,也整合了PROV-O等专业词汇体系,3881个类与1485个属性的规模展现极强的概念覆盖能力。独特的非分类关系数据集(如DBpedia的3029个属性)为关系推理研究提供丰富素材,而精确的版本控制机制(如2024年更新的CCO本体)则确保知识时效性。各本体采用统一的多文件存储方案,兼顾机器可读性与人类可解释性。
使用方法
该数据集主要服务于本体学习与知识图谱构建研究。使用时可分三个层面展开:通过term_typings.json进行概念类型推断研究,利用taxonomies.json开展分类体系重构实验,基于non_taxonomic_relations.json开发关系抽取算法。原始本体文件支持OWL/RDF等标准语义Web工具链处理,而.rst文档则为本体选择提供元数据参考。典型应用场景包括跨本体对齐、概念相似度计算以及领域适应性评估,使用时需注意不同本体的许可协议差异(如MIT许可的CCO与CC-BY的DBpedia)。
背景与挑战
背景概述
Ontolearner-general_knowledge数据集由Sciknow组织开发,专注于通用知识领域本体学习,旨在为跨学科语义建模和知识表示提供基础框架。该数据集整合了包括Common Core Ontologies、DBpedia Ontology、Dublin Core Vocabulary等在内的多个广泛使用的本体,通过结构化信息促进不同领域间的互操作性和数据整合。其核心研究问题在于如何高效构建和维护高质量的本体,以支持人工智能、信息检索和高级数据分析等应用。该数据集自推出以来,已成为本体学习领域的重要资源,为研究者提供了丰富的通用知识表示工具。
当前挑战
Ontolearner-general_knowledge数据集面临的挑战主要体现在两个方面。在领域问题层面,通用知识本体的构建需解决概念覆盖广度和深度之间的平衡问题,确保既能涵盖跨学科的核心概念,又能保持本体的简洁性和一致性。在构建过程层面,不同来源本体的异构性导致数据整合困难,包括命名冲突、属性定义差异等问题。此外,本体的动态更新和维护也是一大挑战,需要持续跟踪各领域知识演进,及时反映新概念和关系。
常用场景
经典使用场景
在知识图谱构建和语义网研究中,ontolearner-general_knowledge数据集作为通用知识领域本体的集合,为跨学科知识建模提供了标准化框架。该数据集整合了CCO、DBpedia等12个核心本体,通过统一的术语体系和关系网络,支持研究者开展本体对齐、概念映射等基础性工作,特别适用于需要处理异构数据源的智能系统开发。
实际应用
在工业级知识图谱构建中,SchemaOrg本体被广泛应用于电子商务领域的结构化数据标注,显著提升搜索引擎的理解能力。医疗健康领域则通过IAO本体对临床数据进行标准化建模,支持电子病历系统的语义检索功能。这些应用验证了通用知识本体在真实场景中的工程价值。
衍生相关工作
基于该数据集衍生的经典工作包括UMBEL参考概念体系在跨境数据交换中的应用,以及YAGO本体与Wikipedia的协同构建研究。EDAM生物信息学本体的扩展版本被NCBI采用为标准元数据框架,而GIST上层本体则催生了多个行业领域的轻量化本体开发方法论。
以上内容由遇见数据集搜集并总结生成



