ZOGRASCOPE
收藏arXiv2025-03-07 更新2025-03-11 收录
下载链接:
https://github.com/interact-erc/ZOGRASCOPE
下载链接
链接失效反馈官方服务:
资源简介:
ZOGRASCOPE是一个针对属性图的新型基准数据集,由Universitat Politècnica de Catalunya和dMetrics共同创建。该数据集基于犯罪侦查图,包含61,521个节点和105,840条边,涵盖11个实体类、32个独特属性和17种关系类型。数据集由专家标注的3.7k个样本组成,包括各种查询类型,旨在推动自动文本到Cypher查询翻译的研究。
ZOGRASCOPE is a novel benchmark dataset for property graphs, jointly created by Universitat Politècnica de Catalunya and dMetrics. Built on crime investigation graphs, this dataset contains 61,521 nodes and 105,840 edges, covering 11 entity classes, 32 distinct attributes, and 17 relationship types. It includes 3.7k expert-annotated samples covering diverse query types, and is specifically designed to advance research in automatic text-to-Cypher query translation.
提供机构:
Universitat Politècnica de Catalunya, Barcelona, Spain; dMetrics, Brooklyn, New York
创建时间:
2025-03-07
搜集汇总
数据集介绍

构建方式
ZOGRASCOPE数据集的构建过程分为两个主要步骤:首先,通过自动化的方式生成Cypher查询。这个过程涉及构建一个树模式,它是一个小型的子图,其中根节点代表答案,其他节点通过表示关系的边连接。这些树模式与底层图保持一致,确保节点通过有效的、符合适当节点类的关系连接。树模式中包含自由变量——不与任何特定实体关联的节点。然后,尝试将这些自由变量与实际的图实体相关联,从而产生完整的Cypher查询。接下来,如果查询返回非空结果,则将其添加到生成的查询池中。第二个步骤是生成自然语言的实现。为此,雇佣了人类标注员,他们的任务是将在Cypher查询转换为准确反映查询语义意图的自然语言问题。标注员提供了图模式详细信息,包括实体类、属性和关系的描述。标注员可以选择不标注他们认为冗余、语义模糊或在图上下文中没有意义的查询。这种质量控制机制确保了只有有意义、格式良好的查询及其相应的自然语言实现被包含在最终的数据集中。最终,ZOGRASCOPE数据集由3.7k个标注样本组成,包括各种查询类型。
特点
ZOGRASCOPE数据集的主要特点是它专门为Cypher查询语言设计的,并且包括一个多样化的手动注释查询集,这些查询的复杂性各不相同。该数据集基于一个犯罪调查图,图中有61,521个节点和105,840条边,包括11个实体类、32个独特的属性和17个关系类型。数据集涵盖了各种聚合类型,包括集合操作、集合大小、属性值集合、最大和最小属性值集合以及argmax和argmin属性值。数据集的构建过程确保了查询的多样性和复杂性,这对于评估和训练自然语言接口系统至关重要。
使用方法
ZOGRASCOPE数据集的使用方法包括将其作为评估自然语言到Cypher查询转换系统的基准。研究人员可以将数据集中的自然语言查询作为输入,并要求他们的模型生成相应的Cypher查询。然后,可以通过执行生成的查询并检查其结果与参考查询的一致性来评估模型的性能。此外,数据集还可以用于训练自然语言处理模型,以改善自然语言到Cypher查询的转换。为了使用该数据集,用户需要熟悉Cypher查询语言以及自然语言处理的基本概念。
背景与挑战
背景概述
在知识图谱领域,自然语言接口对于知识图谱的查询和管理变得日益重要。属性图作为一种结构化数据的方式,通过节点和边来表示实体和关系,其中节点可以持有各种属性值,从而丰富了数据的语义表示。然而,属性图的查询通常需要使用特定的查询语言,如Cypher或Gremlin,这要求用户具备相当的专业知识。为了解决这个问题,ZOGRASCOPE数据集应运而生,这是一个专门为Cypher查询语言设计的基准数据集。该数据集包括了一个由专家人工标注的、具有不同复杂性的查询集合。ZOGRASCOPE的创建旨在填补属性图研究领域的空白,为自然语言到Cypher查询的自动翻译提供了一种新的资源。
当前挑战
ZOGRASCOPE数据集面临的挑战主要包括两个方面:首先,语义解析在图上的应用仍然是一个具有挑战性的开放性问题,不能仅通过提示大型语言模型(LLM)来解决。其次,构建过程中,获取标注数据是一个昂贵且耗时的过程,需要标注者深入理解查询语言、图结构以及将形式查询转换为准确的自然语言描述的能力。此外,现有的数据集主要关注RDF风格的图,而针对属性图的资源相对有限。ZOGRASCOPE数据集的创建旨在解决这些问题,但其性能和实用性仍然有待提高。
常用场景
经典使用场景
ZOGRASCOPE数据集主要用于评估自然语言界面在查询属性图时的性能,特别是针对Cypher查询语言。该数据集包含一组手动注释的查询,这些查询的复杂性各不相同,涵盖了各种聚合类型,如集合操作、集合大小、属性值集合、最大和最小属性值集合,以及argmax和argmin属性值。ZOGRASCOPE数据集的经典使用场景包括自然语言处理、知识图谱查询、语义解析和自动查询翻译等。
解决学术问题
ZOGRASCOPE数据集解决了属性图资源匮乏的问题,为研究者提供了评估自然语言到Cypher查询翻译模型性能的标准基准。该数据集的引入填补了现有数据集主要关注RDF风格图而忽略属性图的空白,为属性图上的自然语言界面研究提供了重要的资源。此外,ZOGRASCOPE数据集的实验结果表明,语义解析仍然是图上的一个具有挑战性的开放性问题,无法仅通过提示大型语言模型来解决。
衍生相关工作
ZOGRASCOPE数据集的引入促进了自然语言到Cypher查询翻译领域的研究进展。基于ZOGRASCOPE数据集,研究者们提出了许多新的模型和方法,如Spcql、FlexKBQA、UnioQA等,这些模型和方法在ZOGRASCOPE数据集上取得了显著的性能提升。此外,ZOGRASCOPE数据集还推动了图查询语言和自然语言处理技术的融合,为知识图谱的查询和操作提供了更加便捷和高效的方式。
以上内容由遇见数据集搜集并总结生成



