Lexicographic Data Retrieval on Knowledge Graphs with SPARQL
收藏arXiv2025-05-26 更新2025-05-28 收录
下载链接:
http://arxiv.org/abs/2505.19971v1
下载链接
链接失效反馈官方服务:
资源简介:
该数据集由苏黎世大学信息学院的研究人员创建,旨在为自然语言查询知识图谱中的词典数据提供接口。数据集包含超过120万个映射,将自然语言表达映射到SPARQL查询,为词典数据检索提供模板。该数据集使用GPT2、Phi-1.5和GPT-3.5-Turbo等大型语言模型进行实验,以评估不同模型的能力。数据集的创建过程基于四维分类法,捕捉了Wikidata词典数据本体模块的复杂性。数据集旨在解决知识图谱中词典数据检索的挑战,特别是对于非技术用户来说,它提供了一个更易于使用的接口,以获取结构化的语言知识。
This dataset was developed by researchers from the School of Information, University of Zurich, with the goal of providing an interface for querying dictionary data in knowledge graphs using natural language. It contains over 1.2 million mappings that translate natural language expressions into SPARQL queries, serving as templates for dictionary data retrieval. Experiments have been conducted on this dataset using large language models such as GPT2, Phi-1.5, and GPT-3.5-Turbo to evaluate the performance of different models. The construction of this dataset adopts a four-dimensional classification framework, which captures the complexity of the ontology modules of Wikidata dictionary data. This dataset aims to tackle the challenges of dictionary data retrieval in knowledge graphs; specifically, it offers a more accessible interface for non-technical users to obtain structured linguistic knowledge.
提供机构:
苏黎世大学信息学院
创建时间:
2025-05-26
搜集汇总
数据集介绍

构建方式
该数据集通过多维分类法系统性地捕捉了Wikidata词典数据本体模块的复杂性,并基于此创建了模板化的自然语言到SPARQL查询的映射。具体而言,研究者首先开发了一个四维分类体系(包括词汇属性、单/多词素输出、单/多语言性以及查询复杂度),随后采用模板填充方法生成了超过120万条数据实例。数据集构建过程中整合了五种专业模块:源自真实用户问题的Google模板、Wikidata属性模板、多属性复合模板、语言无关模板以及基于规则的专家模板,确保了查询类型的全面覆盖。
特点
该数据集最显著的特点在于其规模性和系统性——包含1,270,113个数据元组,覆盖189种查询模板,平均每个模板包含6,191个实例。其四维分类体系创新性地解决了词典学查询的结构化表征难题,特别是D1维度细分的七类词汇属性(如语法特征、历史参照、语义关系等)为复杂语言现象的建模提供了精细框架。数据实例通过解耦语义与句法的策略增强多样性,即保持查询逻辑不变的情况下,利用大模型生成多种自然语言表达变体,有效缓解了模板方法固有的表达单一性问题。
使用方法
该数据集主要用于训练和评估自然语言到SPARQL查询的生成模型。使用时需注意其特有的训练-测试划分策略:每个模板在测试集中至少包含一个实例,但总测试数据不超过模板实例的10%(上限20条),既保证评估覆盖率又维持足够的训练数据。典型应用流程包括:1)基于模板结构理解SPARQL语法模式;2)利用多样化自然语言表达增强模型泛化能力;3)通过四维分类标签实施针对性性能分析。评估推荐采用功能正确性(pass@k)、细粒度正确率(Rgranularity)和BLEU分数等多指标体系,特别需要注意模型在单/多词素、单/多语言等不同维度上的差异化表现。
背景与挑战
背景概述
Lexicographic Data Retrieval on Knowledge Graphs with SPARQL数据集由苏黎世大学信息学系的Kilian Sennrich和计算语言学系的Sina Ahmadi于2025年创建,旨在解决知识图谱中词典学数据的自然语言查询问题。该数据集通过构建多维分类法和模板化方法,生成了超过120万条自然语言到SPARQL查询的映射,显著提升了非技术用户对Wikidata等知识图谱中词典学数据的访问能力。该研究不仅填补了自然语言接口在词典学数据检索领域的空白,还为语言学习者、教师等非技术用户提供了便捷的工具,推动了知识图谱技术的普及和应用。
当前挑战
该数据集面临的主要挑战包括:1) 领域问题方面,词典学数据的复杂语义关系和多样化查询需求使得自然语言到SPARQL的转换极具挑战性,特别是在处理多语言、多义词和复杂语法结构时;2) 构建过程中,如何准确捕捉Wikidata词典学数据本体模块的复杂性,以及如何设计能够覆盖多样化信息请求的模板体系是关键技术难点。此外,模型的泛化能力不足,特别是在处理未见过的查询模式时表现不佳,以及如何有效处理不完整的词汇和实体标识符也是亟待解决的问题。
常用场景
经典使用场景
在自然语言处理与知识图谱交叉领域的研究中,该数据集为构建面向词典学数据的自然语言-SPARQL转换系统提供了标准测试基准。研究者通过该数据集可系统评估模型在理解多语言词汇属性(如词性、词源、语法特征)查询意图,并生成符合Wikidata本体结构的SPARQL查询的能力。其包含120万组自然语言问句与模板化SPARQL的映射对,特别适用于验证模型处理跨语言词汇查询(如'德语单词Apfel的语法性别是什么')时的语义解析精度。
解决学术问题
该数据集有效解决了词典学知识图谱访问中的三大核心问题:一是通过多维分类体系(词汇属性、单/多词素、单/多语言、简单/复杂查询)系统化定义了词典学查询的语义空间;二是构建了首个大规模词典学专用SPARQL模板库,填补了现有数据集偏重事实性查询的空白;三是以功能正确性为导向的评估框架(pass@k指标)突破了传统语法匹配指标的局限,为复杂语义解析任务提供了更科学的评估范式。这对推动知识图谱在语言学、数字人文等领域的应用具有方法论意义。
衍生相关工作
该数据集催生了多个词典学知识检索的延伸研究:基于其模板体系,D'Abramo等人(2025)开发了支持Mixtral模型的上下文学习框架;Brei等人(2024)探索了小模型微调方案以提升系统鲁棒性;在评估方法层面,Chen等人(2024)受其启发提出了结合语义三元组验证的增强型BLEU指标。此外,该工作推动了对Wikidata词典模块的本体优化,影响了OntoLex-Lemon等语义网标准的修订。
以上内容由遇见数据集搜集并总结生成



