oeg/CQ2Onto

Hugging Face2026-05-08 更新2026-05-10 收录

下载链接：

https://hf-mirror.com/datasets/oeg/CQ2Onto

下载链接

链接失效反馈

官方服务：

资源简介：

CQ2Onto基准测试和数据集用于评估基于能力问题（CQ）的LLM辅助本体生成能力，涵盖六个不同领域。每个领域提供黄金标准的OWL本体、两个CQ文件（分别用于CQ2Term和CQ2Onto任务）以及构建过程中使用的注释电子表格。数据集支持两个主要任务：CQ2Term（从单个CQ中提取类和属性）和CQ2Onto（从一组CQs生成完整OWL本体）。数据集包含多种文件格式，如JSON和OWL，并提供了加载数据的Python代码示例。

The CQ2Onto Benchmark & Dataset is designed for evaluating LLM-assisted ontology generation from competency questions across six domains. For each domain, the dataset provides a gold OWL ontology, two CQ files (one per evaluation task), and the annotation spreadsheet used during construction. The dataset supports two tasks: CQ2Term (extracting all possible classes and properties from a CQ) and CQ2Onto (producing a full OWL ontology from a set of CQs). It includes various file formats such as JSON and OWL, along with Python code examples for loading the data.

提供机构：

oeg

搜集汇总

数据集介绍

构建方式

CQ2Onto数据集的构建基于对六个不同规模本体工程领域的审慎遴选，涵盖Wine、AWO、ODRL、Water、VGO及SWO等本体。研究者从各领域原始胜任力问题出发，经过专家评估过滤，保留并补充部分问题，最终形成两组任务：CQ2Term与CQ2Onto。在CQ2Term任务中，每个问题均标注了对应的标准类与属性标签；而CQ2Onto任务则提供完整的OWL本体作为黄金标准。此外，每个领域均附有详细的注释电子表格，记录类、属性及公理的分割过程，确保构建过程可追溯且具备高可靠性。

特点

该数据集的核心特色在于其双任务评估设计，能够分别检验大语言模型从胜任力问题中抽取术语及生成完整本体的能力。数据集覆盖小、中、大三种规模的本体，包含跨领域的多样化知识结构，有助于全面评估模型的泛化性能。每个任务均提供输入与黄金标准，其中CQ2Onto任务的本体文件是经由原始本体裁剪后仅保留满足胜任力问题所需元素的子集，确保评估焦点精准。数据以标准JSON和OWL格式存储，便于直接加载与复用。

使用方法

用户可通过Hugging Face Hub的`hf_hub_download`函数便捷地获取数据。对于CQ2Term任务，加载对应领域的`cq_to_terms_<domain>.json`文件即可获得包含问题及标准术语的列表。对于CQ2Onto任务，一方面加载`cq_to_onto_<domain>.json`作为输入胜任力问题集合，另一方面通过解析`sub_<domain>.owl`文件获取黄金标准OWL本体，利用`rdflib`库进行图处理。此流程支持研究人员直接复现基准测试或微调模型。

背景与挑战

背景概述

CQ2Onto数据集由西班牙马德里理工大学本体工程组（OEG-UPM）于2023年创建，旨在评估大语言模型（LLM）从能力问题（CQ）自动生成本体的能力。该数据集横跨葡萄酒、非洲野生动物、ODRL权利、智慧水务、电子游戏和软件工程六个领域，涵盖小、中、大型三种规模的本体，共提供118条高质量CQ及其对应的OWL本体和术语标注。作为本体工程与自然语言处理交叉领域的标杆资源，CQ2Onto为验证LLM在本体生成任务中的表现提供了标准化测试框架，推动了知识图谱构建自动化的研究进展。

当前挑战

该数据集旨在解决本体构建过程中从非结构化需求（即能力问题）自动生成结构化本体的核心难题，传统方法依赖人工专家耗时且易出错，而LLM虽具潜力却缺乏系统性评估基准。在构建层面，挑战包括：1）从六个领域原始本体中筛选并改写CQ，确保覆盖核心概念同时避免冗余；2）人工标注118条CQ对应的类和属性，涉及跨领域知识对齐与一致性校验；3）面向CQ2Onto任务生成本体子集，需严格保留CQ所需公理以确保评测公正性。这些挑战使CQ2Onto成为衡量本体工程自动化水平的关键试金石。

常用场景

经典使用场景

CQ2Onto数据集专为评估大语言模型在本体工程中的能力而设计，其核心应用场景涵盖两个经典任务：CQ2Term与CQ2Onto。在CQ2Term任务中，模型需从给定的能力问题中精准提取出所有相关的类（classes）与属性（properties），这要求模型具备扎实的术语识别与语义理解能力。而CQ2Onto任务则更具挑战性，它要求模型基于一组能力问题，自主生成一个完整的OWL本体，涵盖概念、关系乃至公理的结构化表达。这两个场景互为补充，共同构成了一个系统性的基准，用于衡量模型从自然语言到形式化知识表示的转化能力。

衍生相关工作

CQ2Onto数据集的发布催生了若干衍生研究方向，其中最典型的包括针对大语言模型的本体工程微调策略研究，以及多步推理增强的本体学习框架开发。部分研究工作以此为基础，探索如何结合检索增强生成（RAG）技术来提升术语提取的覆盖率，或是设计链式提示工程来层层递进地构建本体的类层次结构与属性约束。此外，还有工作将数据集作为跨语言本体迁移学习的测试床，验证模型在非英语能力问题上的泛化能力。这些衍生产出不仅扩展了数据集本身的使用边界，也推动了自动化本体工程向更复杂、更实用的方向演进。

数据集最近研究