KQA Pro
收藏arXiv2022-06-23 更新2024-06-21 收录
下载链接:
https://github.com/shijx12/KQAPro_Baselines
下载链接
链接失效反馈官方服务:
资源简介:
KQA Pro数据集由清华大学开发,包含约117,970个多样化的自然语言问题,用于复杂的知识库问答(Complex KBQA)。该数据集通过引入KoPL编程语言,为每个问题提供了明确的推理过程和SPARQL查询,旨在同时支持KBQA和语义解析任务。KQA Pro数据集涵盖多种推理技能,如多跳推理、属性比较和集合操作,旨在解决现有数据集在推理过程和问题多样性方面的不足。
KQA Pro dataset is developed by Tsinghua University, containing approximately 117,970 diverse natural language questions for complex knowledge base question answering (Complex KBQA). This dataset introduces the KoPL programming language, providing explicit reasoning processes and SPARQL queries for each question, aiming to support both KBQA and semantic parsing tasks. KQA Pro covers various reasoning skills such as multi-hop reasoning, attribute comparison and set operations, intending to address the shortcomings of existing datasets in terms of reasoning processes and question diversity.
提供机构:
清华大学
创建时间:
2020-07-08
搜集汇总
数据集介绍

构建方式
在知识库复杂问答领域,KQA Pro数据集的构建采用了系统化的合成与改写流程。该流程首先基于精心设计的知识导向编程语言(KoPL)和SPARQL查询语言,通过随机采样与递归组合策略生成大规模规范问题及其对应的程序与查询。随后,借助众包平台对规范问题进行自然语言改写,并辅以严格的编辑距离筛选与人工评估机制,确保生成问题的语言多样性与逻辑准确性。最终,数据集涵盖了约12万条多样化自然语言问题,每条问题均配有可执行的KoPL程序与SPARQL查询,形成了结构严谨、规模宏大的语义解析与问答基准。
特点
KQA Pro数据集的核心特点在于其显式的组合式推理标注与多维知识覆盖。数据集不仅提供了问题与答案的配对,还通过KoPL程序明确揭示了复杂问题的多步推理过程,增强了模型的可解释性与中间监督的有效性。此外,该数据集融合了关系型知识、字面属性知识及修饰符知识,全面涵盖了比较、集合操作、多跳推理等多种复杂推理技能。其问题长度与结构分布广泛,平均问题长度达14.95词,程序步数多样,显著超越了现有同类数据集的规模与复杂性,为复杂知识库问答研究提供了更具挑战性的评估环境。
使用方法
KQA Pro数据集适用于知识库问答与语义解析双重视角的研究任务。在知识库问答场景中,研究者可利用其提供的自然语言问题与候选答案,开发端到端的复杂问答模型,并借助KoPL或SPARQL标注进行中间监督训练。在语义解析任务中,数据集支持从自然语言到KoPL程序或SPARQL查询的序列生成或结构预测,为程序合成与逻辑形式解析提供丰富语料。此外,数据集的细粒度问题分类支持模型推理能力的诊断分析,例如针对比较、计数、零样本等特定技能的评估,有助于深入探究模型在组合泛化与知识融合方面的局限与改进方向。
背景与挑战
背景概述
KQA Pro数据集由清华大学与华为等机构的研究团队于2022年联合推出,旨在推动复杂知识库问答领域的发展。该数据集聚焦于解决复杂知识库问答中的组合推理问题,如多跳推理、属性比较与集合操作等。其核心创新在于引入了知识导向编程语言KoPL,为每个问题提供了显式的程序化推理过程,同时辅以SPARQL查询标注。KQA Pro包含约12万条多样化自然语言问题,覆盖了关系知识、字面属性与修饰语知识等多种知识类型,显著提升了数据集的规模与复杂性,为语义解析与知识库问答任务提供了重要的基准资源。
当前挑战
KQA Pro所针对的复杂知识库问答任务面临多重挑战:在领域层面,模型需同时处理多跳推理、数值比较、逻辑运算及修饰语理解等组合式问题,而现有方法在涉及字面属性与修饰语的问题上表现显著不足。构建过程中,研究团队需克服大规模高质量数据生成的难题,包括设计覆盖多样化推理模式的模板、确保问题与程序间的一致性,以及通过众包实现自然语言转述时的语义保真度控制。此外,数据集中约30%的答案在训练集中未出现,对模型的零样本泛化能力提出了严峻考验。
常用场景
经典使用场景
在知识库问答领域,KQA Pro数据集被广泛用于评估复杂问题解答模型的性能。该数据集通过提供显式的组合式推理程序,支持多跳推理、属性比较和集合操作等复杂任务,成为研究者在开发语义解析和知识库问答系统时的基准测试工具。其丰富的自然语言问题与对应的KoPL程序和SPARQL查询,使得模型能够学习到从问题到结构化查询的映射过程,从而提升推理的透明度和可解释性。
实际应用
在实际应用中,KQA Pro可用于构建智能问答系统和知识图谱交互界面,例如在搜索引擎、虚拟助手和企业知识管理平台中处理涉及多步推理的复杂查询。其支持的自然语言到程序或查询的转换能力,使得系统能够更准确地理解用户意图,并提供基于结构化知识的答案。此外,数据集的多样性和规模确保了模型在真实场景中的鲁棒性和泛化能力,为实际部署提供了可靠的基础。
衍生相关工作
KQA Pro的发布促进了多项相关研究工作的开展,例如基于KoPL的语义解析模型改进、知识库嵌入方法的优化以及组合式泛化能力的探索。研究者利用该数据集开发了新的神经网络架构,如BART-based解析器,以提升复杂问题解答的准确率。同时,数据集也被用作评估模型在零样本学习和多类型知识处理上的基准,推动了知识库问答领域向更高效、更可解释的方向演进。
以上内容由遇见数据集搜集并总结生成



