five

DBLP-QuAD

收藏
arXiv2025-09-30 收录
下载链接:
https://zenodo.org/record/7643971
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是一个包含针对DBLP学术知识图谱的自然语言提问的问答数据集。在训练集和验证集中,包含了正确答案的注释、真实的SPARQL查询以及实体链接的结果。数据集的规模如下:训练集包含7000个问题,验证集包含1000个问题,测试集包含500个问题。该数据集的任务是知识图谱问答。

This dataset is a question answering (QA) dataset containing natural language questions aimed at the DBLP academic knowledge graph. Both the training and validation splits come with annotated correct answers, ground-truth SPARQL queries, and entity linking results. The dataset has the following scale: the training set contains 7,000 questions, the validation set contains 1,000 questions, and the test set contains 500 questions. The task of this dataset is knowledge graph question answering (KGQA).
提供机构:
Scholarly QALD Challenge
搜集汇总
数据集介绍
main_image_url
构建方式
DBLP-QuAD的构建始于对DBLP学术知识图谱本体的深入分析,人工编写了98对SPARQL查询模板与语义等价的自然语言问题模板。随后,从知识图谱中随机采样出版物实体,提取两跳子图,利用其中的实体URI与文字值对模板进行实例化。为增强语言多样性,对姓名、场所、时长等文字值执行字符串变换以生成替代表示,并随机混合使用。最终,通过Virtuoso端点执行SPARQL查询以验证数据实例,过滤无效或空响应的条目,形成包含10,000个问答对的数据集。
特点
该数据集是当前规模最大的学术知识图谱问答数据集,覆盖10种查询类型(如单事实、多事实、布尔、否定、计数等),并区分创作者与出版物两类实体。其独特之处在于通过控制模板与问题模板的留出策略,使数据支持独立同分布、组合性与零样本三种泛化评估。此外,数据增强引入了文字值的多种自然表述,提升了实体链接的挑战性,同时两万三千余条时间性问题丰富了语义复杂度的层次。
使用方法
DBLP-QuAD将数据按7:1:2比例划分为训练、验证与测试集,每条样本包含SPARQL查询、主问题及其语义等价的改写句。使用时,需先搭建本地SPARQL端点(如Virtuoso)并加载DBLP的RDF转储文件。研究者可直接利用该数据集训练神经语义解析模型,例如基于T5的序列到序列框架,将自然语言问题与实体、关系前缀拼接后生成SPARQL查询,并通过精确匹配与F1分数评估性能。
背景与挑战
背景概述
知识图谱问答(KGQA)作为语义解析与自然语言理解交叉领域的重要研究方向,近年来依托Freebase、DBpedia等通用知识图谱取得了长足进展。然而,面向学术文献这一垂直领域的KGQA数据集却长期处于匮乏状态。在此背景下,德国汉堡大学Debayan Banerjee等人于2022年构建了DBLP-QuAD数据集,该数据集以DBLP学术知识图谱为基底,DBLP由Michael Ley于1993年在特里尔大学创建,迄今已收录超过440万篇计算机科学出版物及220万位作者信息。DBLP-QuAD包含10,000组自然语言问句与对应SPARQL查询的配对,覆盖单事实、多事实、布尔、否定、计数、最值比较等10种查询类型,并特别设计了组合泛化与零样本泛化的评测机制。作为当前规模最大的学术KGQA数据集,DBLP-QuAD为学术信息检索系统的智能化发展提供了关键的基准资源。
当前挑战
该数据集面临的核心挑战涵盖领域问题与构建过程两个维度。在领域问题层面,学术KGQA需处理复杂的语义歧义,例如论文标题的简称与全称对应(如'GPT-3'与'Language Models are Few-shot Learners'),以及作者姓名的多种表示形式(如'John W. Smith'与'Smith, J. William')。此外,DBLP知识图谱本身存在谓词缺失(如coCreatorWith关系在RDF快照中不可用)及部分实体属性不完整(如primaryAffiliation缺失)的问题,增加了查询构建的难度。在构建过程中,挑战在于如何平衡机器生成效率与自然语言真实性:尽管采用模板化生成框架可控制问题类型分布,但合成问句可能无法完全反映真实用户的信息需求模式;同时,为避免测试集泄露,需人工标记20%的模板在训练阶段保留,这要求精细的模板设计与验证流程。数据增强环节对机构名称、会议简称等字面值的多样化处理,虽提升了语言多样性,但也加剧了实体链接的挑战。
常用场景
经典使用场景
DBLP-QuAD作为当前规模最大的学术知识图谱问答数据集,其核心用途在于训练和评估面向学术文献知识图谱的自然语言问答系统。该数据集覆盖了DBLP知识图谱中丰富的实体与关系,包括作者、出版物、会议、期刊等学术要素,并提供了10,000条自然语言问题与对应SPARQL查询的配对。研究者可借此构建能够理解复杂学术查询的语义解析模型,例如回答“某作者在特定会议上发表了多少篇论文”或“某篇论文的合作者中谁发表作品最多”等多层次问题。数据集设计的十种问题类型(如单事实、多事实、布尔、否定、计数、比较等)确保了模型在学术信息检索中的全面适用性,成为知识图谱问答领域不可或缺的基准资源。
解决学术问题
DBLP-QuAD的推出有效填补了学术领域知识图谱问答数据集匮乏的空白,解决了以往数据集规模小、缺乏逻辑形式标注、或仅适用于通用知识图谱的局限性。该数据集为语义解析任务提供了标准化的训练与测试平台,使研究者能够系统性地评估模型在独立同分布、组合泛化及零样本泛化三种场景下的表现。通过精心设计的模板分离与数据增强策略,DBLP-QuAD促进了模型对未见查询模板和词汇变异的学习能力,推动了学术知识图谱问答从简单事实检索向复杂推理的演进。其意义在于为计算机科学文献的智能化检索开辟了新路径,加速了学术信息自动化服务的研发进程。
衍生相关工作
DBLP-QuAD的发布催生了一系列衍生研究,尤其在语义解析与学术知识图谱问答领域。其基线实验基于T5模型的微调方法(Banerjee et al., 2022)为后续工作提供了参考框架,研究者随后探索了基于图神经网络的结构化查询生成、融合预训练语言模型的端到端问答架构,以及面向学术图谱的实体链接增强技术。该数据集还启发了对组合泛化能力的深入分析,例如借鉴CFQ中的评估协议来测试模型对未见查询模式的适应性。此外,DBLP-QuAD与ORKG-QA等学术问答数据集的对比研究,推动了跨知识图谱的通用问答系统设计,而其在零样本泛化上的挑战则刺激了少样本学习与元学习方法的创新应用。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作