five

ONTOURL

收藏
arXiv2025-05-16 更新2025-05-20 收录
下载链接:
http://arxiv.org/abs/2505.11031v1
下载链接
链接失效反馈
官方服务:
资源简介:
ONTOURL是一个全面的基准数据集,旨在评估大型语言模型在处理本体知识方面的能力。该数据集由来自8个领域的40个本体中生成的58,981个问题组成,涵盖了15个任务,旨在评估模型在理解、推理和学习三个维度的能力。这些任务包括概念理解、结构知识、逻辑推理、结构构建和概念对齐等方面。ONTOURL的数据来源包括科学、健康医疗、商业金融、地球环境、艺术娱乐、食品农业、人类社会和法律等领域。数据集的创建过程涉及从本体中提取元素,形成问题,添加难度,以及控制数据质量等步骤。该数据集为评估LLM在处理结构化符号知识方面的能力提供了一个重要的基准。

ONTOURL is a comprehensive benchmark dataset developed to evaluate the capabilities of large language models (LLMs) in handling ontological knowledge. It comprises 58,981 questions generated from 40 ontologies across 8 distinct domains, and covers 15 tasks designed to assess model performance across three core dimensions: comprehension, reasoning, and learning. These tasks cover aspects such as concept comprehension, structural knowledge, logical reasoning, structure construction, and concept alignment. The 8 source domains of the ONTOURL dataset include science, healthcare, business and finance, earth and environment, art and entertainment, food and agriculture, human society, and law. The dataset creation process involves steps such as extracting elements from ontologies, formulating questions, adding difficulty levels, and controlling data quality. This dataset serves as a critical benchmark for evaluating LLMs' capabilities in processing structured symbolic knowledge.
提供机构:
格罗宁根大学CLCG学院
创建时间:
2025-05-16
搜集汇总
数据集介绍
main_image_url
构建方式
ONTOURL数据集通过系统化的四步流程构建而成,涵盖40个跨8个领域的专家构建的本体。首先从RDF/OWL格式的本体中提取类、属性和实例等元素;随后基于提取的信息生成自然语言问题,涵盖理解、推理和学习三个维度;接着为多选题设计语义相关的干扰项;最后通过深度过滤和专家验证确保数据质量,包括基于类深度的采样策略和人工语法语义检查,最终形成包含58,981个问题的基准测试集。
特点
该数据集具有三大核心特征:多维评估体系覆盖本体理解(如类定义识别)、推理(如隐含关系推导)和学习(如本体构建)能力;领域多样性包含科学、医疗、法律等8个专业领域;任务复杂性梯度设计,从基础的定义匹配到复杂的描述逻辑推理,特别包含15种任务类型如SWRL规则推理和本体对齐,其中理解类任务占比31.1%,推理类占53.8%,学习类占15.1%。
使用方法
使用ONTOURL需分三阶段:首先选择评估模式(零样本/少样本),输入包含任务说明和问题;其次对多选题记录选项字母,生成题输出结构化结果(如三元组);最后采用任务特定指标评估——理解推理任务用准确率,生成任务用ROUGE-L或F1值。注意需控制输入长度(理解任务128token,生成任务512token),温度参数设为0以保证确定性输出,详细提示模板见附录D。
背景与挑战
背景概述
ONTOURL是由荷兰格罗宁根大学和莱顿大学的研究团队于2025年提出的首个系统性评估大语言模型在形式化本体理解、推理和学习能力的基准数据集。该数据集基于40个跨8个领域的专家构建本体,包含58,981个问题,覆盖理解、推理和学习三个维度的15项任务。ONTOURL的创建填补了大语言模型处理符号化知识评估的空白,为衡量模型在概念记忆、逻辑推理和本体构建等核心认知能力提供了标准化测试框架。
当前挑战
ONTOURL针对的领域挑战在于大语言模型对形式化符号知识的处理能力不足,特别是在多跳逻辑推理(如传递性超类推断)和描述逻辑表达式的可满足性判断等需要精确符号运算的任务上表现薄弱。在构建过程中,研究团队面临本体异构性整合(如不同领域本体的逻辑表达差异)、问题生成的语义保真度控制(确保自动生成的问题与原始本体语义一致)以及评估指标设计(平衡结构化输出与生成自由度)三大技术挑战。
常用场景
经典使用场景
ONTOURL数据集作为首个系统评估大语言模型在符号本体理解、推理和学习能力的基准,其经典使用场景主要聚焦于自然语言处理与知识表示领域的交叉研究。通过构建涵盖8个领域40个本体的58,981道问题,该数据集为研究者提供了标准化测试平台,特别适用于分析LLMs对形式化领域知识的处理能力,如医学本体中的概念层级推理或法律本体的约束关系理解。
解决学术问题
该数据集系统解决了三大核心学术问题:首先填补了现有评估基准在符号知识处理维度上的空白,通过理解-推理-学习的分类体系突破传统NLP任务框架;其次揭示了LLMs在隐式逻辑推理(如描述逻辑表达式验证)和本体构建(如类层次生成)方面的显著缺陷,为改进模型架构提供方向;最后建立了跨领域本体能力的可比评估标准,推动知识增强型语言模型的标准化发展。
衍生相关工作
该数据集已衍生出三类代表性工作:基于性能分析的本体增强方法(如DeepOnto的联合训练策略)、面向符号推理的模型改进(如描述逻辑特化模块的集成研究)以及跨模态知识对齐技术(如VeeAlign的视觉-本体映射框架)。其任务设计思想更被HIBench等后续基准在层次结构推理评估中广泛借鉴。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作