QueryBridge
收藏QueryBridge 数据集概述
数据集描述
QueryBridge 数据集旨在推进知识图谱上的问答系统(QA)的训练和评估。它提供了一个全面的资源,用于开发和测试处理和解释自然语言问题在结构化知识上下文中的算法。
数据结构
QueryBridge 数据集由一系列文件组成,每个文件包含表示注释问题的 JSON 对象。每个 JSON 对象包含多个字段和标签,提供问题的全面表示。
JSON 对象示例
json { "seed_withPrefix": "http://dbpedia.org/resource/Robert_Gates", "seedType_withPrefix": "http://dbpedia.org/ontology/OfficeHolder", "questionString": "Who is the chancellor of College of William & Mary?", "questionStringTagged": "<qt>Who</qt> <p>is the chancellor of</p> <o>College of William & Mary</o>?", "query": "SELECT DISTINCT ?Seed WHERE{ http://dbpedia.org/resource/College_of_William_&_Mary http://dbpedia.org/ontology/chancellor ?Seed . }", "graphString": "College of William & Mary[university] chancellor Robert Gates[office holder]", "noOfTriples": 1, "answers": [ "http://dbpedia.org/resource/Robert_Gates" ], "answerCardinality": 1, "noOfTokens": 10, "keywords": 3, "shapeType": "SINGLE_EDGE", "questionType": "Who", "questionComplexity": 0.12 }
字段解释
| 字段 | 描述 |
|---|---|
| seed_withPrefix | 种子实体的完整 URI,通常是与答案或问题主要主题相关的资源。例如,http://dbpedia.org/resource/Robert_Gates 表示 Robert Gates。 |
| seedType_withPrefix | 种子实体类型的完整 URI。例如,http://dbpedia.org/ontology/OfficeHolder 表示种子实体是办公室持有者。 |
| questionString | 用户提出的自然语言问题。例如,"Who is the chancellor of College of William & Mary?" |
| questionStringTagged | 问题的一个版本,其中关键组件用 <qt>(问题类型)、<p>(谓词)和 <o>(对象实体)标记。这有助于提取有意义的部件以生成 SPARQL 查询。例如:<qt>Who</qt> <p>is the chancellor of</p> <o>College of William & Mary</o>? |
| query | 用于从知识图谱中检索答案的 SPARQL 查询。它指定实体之间的关系以获取种子实体。例如:SELECT DISTINCT ?Seed WHERE { <http://dbpedia.org/resource/College_of_William_&_Mary> <http://dbpedia.org/ontology/chancellor> ?Seed . } |
| graphString | 查询的简化、人类可读的表示形式,以实体及其关系的形式描述。例如,"College of William & Mary[university] chancellor Robert Gates[office holder]" 描述了大学和 Robert Gates 之间的关系。 |
| noOfTriples | SPARQL 查询中使用的三元组(主语-谓语-宾语模式)的数量。在此示例中,查询有 1 个三元组。 |
| answers | 表示查询正确答案的 URI 列表。在此示例中,它是 URI http://dbpedia.org/resource/Robert_Gates,表示 Robert Gates。 |
| answerCardinality | 预期答案的数量。在此示例中,基数为 1,表示单个答案(Robert Gates)。 |
| noOfTokens | 自然语言问题中的总令牌数。在此示例中,问题 "Who is the chancellor of College of William & Mary?" 有 12 个令牌。 |
| keywords | 问题中重要关键词的数量,有助于确定其意图。在此示例中,有 3 个关键词。 |
| shapeType | 查询的形状,表示其结构复杂性。例如,SINGLE_EDGE 表示一个简单的查询,其中一个三元组连接主语和宾语。 |
| questionType | 所提问题的类型,有助于确定所需的 SPARQL 查询类型。在此示例中,问题类型是 "Who",表示预期答案是一个人或实体。 |
| questionComplexity | 表示问题复杂性的数值,基于实体数量、关系和涉及的操作等因素。在此示例中,复杂性为 0.12,表示相对较低的复杂性。 |
标签使用
QueryBridge 数据集中的标记问题旨在训练语言模型以有效理解问题的组件和结构。通过使用 <qt>、<p>、<o> 和 <s> 等特定标签注释问题,我们提供了每个问题元素的详细分解,有助于模型理解不同组件的作用。
查询形状
QueryBridge 数据集包含多种查询形状,每种形状对应不同的查询模板,强调了查询形状多样性在训练 QA 系统中的重要性。这种多样性对于系统解释和回答复杂问题至关重要。




