QueryBridge

Hugging Face2024-09-23 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/aorogat/QueryBridge

下载链接

链接失效反馈

官方服务：

资源简介：

QueryBridge数据集旨在推动知识图谱上问答系统（QA）的训练和评估。它提供了一个全面的资源，用于开发和测试在结构化知识背景下处理和解释自然语言问题的算法。QueryBridge数据集结构化为一系列文件，每个文件包含表示注释问题的JSON对象。每个JSON对象包括多个字段和标签，提供问题的全面表示。这些字段包括种子实体、种子类型、自然语言问题、带标签的问题、SPARQL查询、图表示、三元组数量、答案、答案基数、标记数量、关键词、形状类型、问题类型和问题复杂度。数据集的结构旨在促进在结构化知识背景下处理和解释自然语言问题的算法的开发和测试。README文件还解释了数据集中使用的标签系统，并提供了不同查询形状的示例，以说明问题结构的多样性。

创建时间：

2024-09-18

原始信息汇总

QueryBridge 数据集概述

数据集描述

QueryBridge 数据集旨在推进知识图谱上的问答系统（QA）的训练和评估。它提供了一个全面的资源，用于开发和测试处理和解释自然语言问题在结构化知识上下文中的算法。

数据结构

QueryBridge 数据集由一系列文件组成，每个文件包含表示注释问题的 JSON 对象。每个 JSON 对象包含多个字段和标签，提供问题的全面表示。

JSON 对象示例

json { "seed_withPrefix": "http://dbpedia.org/resource/Robert_Gates", "seedType_withPrefix": "http://dbpedia.org/ontology/OfficeHolder", "questionString": "Who is the chancellor of College of William & Mary?", "questionStringTagged": "<qt>Who</qt> <p>is the chancellor of</p> <o>College of William & Mary</o>?", "query": "SELECT DISTINCT ?Seed WHERE{ http://dbpedia.org/resource/College_of_William_&_Mary http://dbpedia.org/ontology/chancellor ?Seed . }", "graphString": "College of William & Mary[university] chancellor Robert Gates[office holder]", "noOfTriples": 1, "answers": [ "http://dbpedia.org/resource/Robert_Gates" ], "answerCardinality": 1, "noOfTokens": 10, "keywords": 3, "shapeType": "SINGLE_EDGE", "questionType": "Who", "questionComplexity": 0.12 }

字段解释

字段	描述
seed_withPrefix	种子实体的完整 URI，通常是与答案或问题主要主题相关的资源。例如，`http://dbpedia.org/resource/Robert_Gates` 表示 Robert Gates。
seedType_withPrefix	种子实体类型的完整 URI。例如，`http://dbpedia.org/ontology/OfficeHolder` 表示种子实体是办公室持有者。
questionString	用户提出的自然语言问题。例如，"Who is the chancellor of College of William & Mary?"
questionStringTagged	问题的一个版本，其中关键组件用 `<qt>`（问题类型）、`<p>`（谓词）和 `<o>`（对象实体）标记。这有助于提取有意义的部件以生成 SPARQL 查询。例如：`<qt>Who</qt> <p>is the chancellor of</p> <o>College of William & Mary</o>?`
query	用于从知识图谱中检索答案的 SPARQL 查询。它指定实体之间的关系以获取种子实体。例如：`SELECT DISTINCT ?Seed WHERE { <http://dbpedia.org/resource/College_of_William_&_Mary> <http://dbpedia.org/ontology/chancellor> ?Seed . }`
graphString	查询的简化、人类可读的表示形式，以实体及其关系的形式描述。例如，"College of William & Mary[university] chancellor Robert Gates[office holder]" 描述了大学和 Robert Gates 之间的关系。
noOfTriples	SPARQL 查询中使用的三元组（主语-谓语-宾语模式）的数量。在此示例中，查询有 1 个三元组。
answers	表示查询正确答案的 URI 列表。在此示例中，它是 URI `http://dbpedia.org/resource/Robert_Gates`，表示 Robert Gates。
answerCardinality	预期答案的数量。在此示例中，基数为 1，表示单个答案（Robert Gates）。
noOfTokens	自然语言问题中的总令牌数。在此示例中，问题 "Who is the chancellor of College of William & Mary?" 有 12 个令牌。
keywords	问题中重要关键词的数量，有助于确定其意图。在此示例中，有 3 个关键词。
shapeType	查询的形状，表示其结构复杂性。例如，`SINGLE_EDGE` 表示一个简单的查询，其中一个三元组连接主语和宾语。
questionType	所提问题的类型，有助于确定所需的 SPARQL 查询类型。在此示例中，问题类型是 "Who"，表示预期答案是一个人或实体。
questionComplexity	表示问题复杂性的数值，基于实体数量、关系和涉及的操作等因素。在此示例中，复杂性为 0.12，表示相对较低的复杂性。

标签使用

QueryBridge 数据集中的标记问题旨在训练语言模型以有效理解问题的组件和结构。通过使用 <qt>、<p>、<o> 和 <s> 等特定标签注释问题，我们提供了每个问题元素的详细分解，有助于模型理解不同组件的作用。

查询形状

QueryBridge 数据集包含多种查询形状，每种形状对应不同的查询模板，强调了查询形状多样性在训练 QA 系统中的重要性。这种多样性对于系统解释和回答复杂问题至关重要。

搜集汇总

数据集介绍

构建方式

QueryBridge数据集的构建基于专家生成的方式，通过精心设计的标注流程，将自然语言问题与知识图谱中的结构化信息进行映射。每个问题都被转化为JSON对象，包含详细的字段和标签，如问题类型、实体、谓词等，确保问题与SPARQL查询之间的精确对应。数据集的构建过程注重多样性和复杂性，涵盖了从简单到复杂的多种查询形状，如单边、链状、星形等，以全面支持问答系统的训练与评估。

特点

QueryBridge数据集的特点在于其丰富的标注信息和多样化的查询形状。每个问题不仅包含自然语言表述，还通过标签系统（如<qt>、<p>、<o>等）对问题类型、实体和谓词进行详细标注，便于模型理解问题的语义结构。此外，数据集涵盖了多种查询形状，如单边、链状、星形等，能够有效支持多跳推理和复杂问题处理。这种多样性和复杂性使得QueryBridge成为问答系统训练和评估的理想资源。

使用方法

QueryBridge数据集的使用方法灵活多样，适用于多种任务场景。用户可以通过加载JSON格式的数据文件，直接访问标注问题和对应的SPARQL查询。数据集支持问答系统训练、实体抽取、关系抽取、查询生成等任务。通过解析问题中的标签信息，用户可以提取关键实体和谓词，生成相应的查询语句。此外，数据集还支持复杂查询形状的分析和多跳推理任务的开发，为知识图谱问答系统的研究提供了全面的支持。

背景与挑战

背景概述

QueryBridge数据集由Abdelghny Orogat和Ahmed El-Roby于2023年创建，旨在推动知识图谱上的问答系统（QA）训练与评估。该数据集为处理和理解自然语言问题提供了丰富的资源，特别适用于结构化知识背景下的算法开发与测试。作为首个且规模最大的知识图谱问答数据集，QueryBridge不仅支持传统的问答任务，还扩展至实体抽取、关系抽取、查询生成、查询形状识别、复杂性分析以及多跳推理等多个领域。其影响力在于为知识图谱问答系统的研究提供了标准化基准，推动了该领域的技术进步。

当前挑战

QueryBridge数据集在构建与应用过程中面临多重挑战。首先，知识图谱问答系统需要处理复杂的自然语言问题，这些问题往往涉及多跳推理和复杂的查询形状，如链式、星形、树形等，这对模型的推理能力提出了极高要求。其次，数据集的构建依赖于专家生成的标注，确保每个问题的结构化表示准确无误，这一过程耗时且成本高昂。此外，如何有效地将自然语言问题转化为可执行的SPARQL查询，同时保持语义一致性，是技术实现中的核心难题。最后，数据集的多样性和规模虽为模型训练提供了丰富资源，但也对计算资源和算法效率提出了更高要求。

常用场景

经典使用场景

QueryBridge数据集在知识图谱问答系统中具有广泛的应用场景。通过提供大量标注的自然语言问题及其对应的SPARQL查询，该数据集为开发能够理解和处理复杂问题的问答系统提供了坚实的基础。研究人员可以利用该数据集训练模型，使其能够从自然语言问题中提取关键实体、关系和查询结构，进而生成准确的SPARQL查询以从知识图谱中检索答案。

衍生相关工作

QueryBridge数据集催生了一系列相关研究工作，特别是在知识图谱问答和自然语言处理领域。基于该数据集，研究人员开发了多种先进的问答模型，如基于图神经网络的问答系统和多跳推理模型。此外，该数据集还被用于研究查询生成和查询形状识别等任务，推动了知识图谱问答技术的进一步发展。这些工作不仅提升了问答系统的性能，还为其他相关领域（如信息检索和语义理解）提供了新的研究思路。

数据集最近研究