five

CQ2Onto

收藏
Hugging Face2026-05-06 更新2026-05-07 收录
下载链接:
https://huggingface.co/datasets/oeg/CQ2Onto
下载链接
链接失效反馈
官方服务:
资源简介:
CQ2Onto是一个用于评估基于大型语言模型(LLM)辅助的从能力问题(Competency Questions, CQs)生成本体的基准数据集,涵盖六个不同领域(Wine、AWO、ODRL、Water、VGO和SWO)。数据集为每个领域提供黄金标准OWL本体、两个CQ文件(对应CQ2Term和CQ2Onto任务)以及注释表格。CQ2Term任务要求从单个CQ中提取类和属性,而CQ2Onto任务要求从一组CQs生成完整OWL本体。数据集文件包括JSON格式的CQ列表和RDF/XML格式的OWL本体文件,适用于本体工程、本体生成和术语提取等任务的研究和评估。

CQ2Onto is a benchmark dataset for evaluating Large Language Model (LLM)-assisted ontology generation from Competency Questions (CQs), covering six distinct domains. The dataset provides a gold-standard OWL ontology, two CQ files (corresponding to two evaluation tasks), and annotation tables used during construction for each domain. It includes two main tasks: CQ2Term (extracting all possible classes and properties from a given CQ) and CQ2Onto (generating a complete OWL ontology from a set of CQs). The dataset comprises six domain ontologies of varying sizes (Wine, AWO, ODRL, Water, VGO, and SWO), with each domains data including input files for both tasks, gold-standard ontology files (in OWL format), and Excel sheets documenting the annotation process. File formats include JSON for CQ lists and RDF/XML for OWL ontology files. The dataset is suitable for research and evaluation in ontology engineering, ontology generation, and term extraction tasks.
提供机构:
Ontology Engineering Group
创建时间:
2026-05-06
搜集汇总
数据集介绍
main_image_url
构建方式
CQ2Onto基准数据集专为评估大语言模型从能力问题生成本体的能力而设计,横跨六个不同领域。其构建过程精心挑选了三种规模的本体,包括小型葡萄酒与非洲野生动物本体、中型ODRL与水务本体、大型视频游戏与软件本体,共计196个能力问题。每个领域的数据集包含原始能力问题集、经过筛选与新增后形成的最终能力问题集合、对应的OWL本体文件(作为CQ2Onto任务的金标准),以及详细的注释电子表格,记录了每项能力问题的类、属性及公理标注过程。
特点
该数据集的核心特点在于其双任务评估框架:CQ2Term旨在从单个能力问题中提取所有可能的类和属性,而CQ2Onto要求根据一组能力问题生成完整的OWL本体。数据集提供了丰富的结构化文件,包括能力问题JSON文件、OWL源码及注释电子表格,为不同粒度的本体工程评估提供了标准化基准。其涵盖的领域从具体到抽象、从小型到大型,确保了评估的全面性与挑战性。
使用方法
研究者可通过HuggingFace Hub便捷加载该数据集。对于CQ2Term任务,使用hf_hub_download函数下载各领域的cq_to_terms_<domain>.json文件,其中包含能力问题及其对应的金标准类和属性标签。对于CQ2Onto任务,则需下载对应的sub_<domain>.owl文件,并使用rdflib库解析OWL本体作为金标准。数据集以Apache 2.0许可发布,支持灵活的学术与商业使用。
背景与挑战
背景概述
在知识工程领域,本体作为共享概念模型的基石,其构建过程长期依赖领域专家的深度参与,这一模式在效率与可扩展性上已难以满足日益增长的知识密集型应用需求。为应对这一挑战,CQ2Onto数据集由西班牙马德里理工大学的OEG研究团队于近期提出,旨在为大型语言模型辅助的本体生成任务提供标准化评估基准。该数据集涵盖葡萄酒、非洲野生动物等六个跨领域本体,规模从数十个到上百个能力问题不等,核心研究问题聚焦于探索是否能够从自然语言描述的查询需求自动衍生出符合OWL规范的完整本体。其发布填补了该方向公开基准的空白,为后续研究提供了量化比较的基础,正逐步成为本体工程自动化领域的重要参照。
当前挑战
CQ2Onto数据集的核心挑战在于弥合自然语言能力问题与形式化本体之间的语义鸿沟,具体体现为两大方面。在领域问题层面,传统本体构建依赖于专家手动解析需求,耗时且易出错,而任务要求模型不仅能从一句提问中准确抽取类与属性(CQ2Term),还需综合一组提问生成包含公理与约束的完整OWL本体(CQ2Onto),这对模型的语义推理与结构化表征能力提出极高要求。在构建过程层面,数据集创建面临本体选择代表性、能力问题的质量筛选与一致性标注等难题,例如从原始68个能力问题中仅保留满足本体覆盖需求的部分,并确保标注结果的准确性与可复现性,整个过程依赖严密的评审机制以降低主观偏差。
常用场景
经典使用场景
在知识工程与本体工程领域,CQ2Onto数据集被广泛用于评估大语言模型从能力问题(Competency Questions)中自动化生成本体的能力。该数据集覆盖了葡萄酒、非洲野生动物、ODRL权利表达、水资源管理、电子游戏、软件工程等六大不同领域,规模从小型到大型不一而足。研究人员通常将CQ2Onto作为基准测试,借助其提供的黄金标准OWL本体和精心标注的能力问题集合,检验和比较各类模型在从自然语言问题中抽取本体要素并构建完整OWL本体上的表现。数据集内置的CQ2Term任务聚焦于从单个问题中提取类和属性标签,CQ2Onto任务则要求模型根据一组问题生成完整的本体,二者共同构成了评价本体生成模型综合能力的经典任务框架。
衍生相关工作
CQ2Onto的提出催生了多项具有影响力的后续研究工作。在方法创新方面,研究者基于该基准发展出多轮交互式的本体生成框架,利用大语言模型逐步精化从能力问题中提取的本体片段。在任务拓展方向上,衍生工作将CQ2Onto中的术语抽取任务与传统的命名实体识别、关系抽取方法进行对比融合,探索不同粒度下本体要素的识别策略。评估维度方面,有工作引入本体一致性、完整性和可解释性等新指标对生成结果进行多角度评测,并开发了自动评分工具辅助模型调优。数据层面,后续研究借鉴CQ2Onto的构建范式,将类似的任务框架拓展至医疗、法律等专业领域,形成了更加丰富的多领域本体生成评估生态。
数据集最近研究
最新研究方向
在知识工程与语义Web的前沿交汇处,本体自动构建始终是制约智能系统大规模落地的核心瓶颈。CQ2Onto基准数据集应运而生,它开创性地将能力问题(CQ)作为桥梁,系统性评估大语言模型在六个跨领域场景中从自然语言查询到OWL本体的端到端生成能力。该数据集不仅提供了细粒度的CQ2Term(术语抽取)与CQ2Onto(本体生成)双任务评估框架,更通过精心设计的金标准本体与注释流程,为破解当前大模型在结构化知识建模中存在的幻觉与不一致性问题提供了关键的基准参考。其出现的时机恰好回应了本体工程社区对可复现、标准化评估工具的迫切渴求,对于推动知识图谱自动化构建从理论探索迈向工程实践具有里程碑式的意义。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作