neo4j/text2cypher-2024v1

Name: neo4j/text2cypher-2024v1
Creator: neo4j
Published: 2025-08-06 12:07:10
License: 暂无描述

Hugging Face2025-08-06 更新2025-04-12 收录

下载链接：

https://hf-mirror.com/datasets/neo4j/text2cypher-2024v1

下载链接

链接失效反馈

官方服务：

资源简介：

Neo4j-Text2Cypher数据集（2024）是一个整理自多个公开数据集的实例集合，每个实例至少包含一个“问题、模式、Cypher查询”三元组。该数据集总共包含44,387个实例，分为39,554个训练实例和4,833个测试实例，适用于自然语言到Cypher的转换任务。

The Neo4j-Text2Cypher (2024) Dataset is a collection of instances from various public datasets, each containing at least a question, schema, Cypher triplet. The dataset consists of a total of 44,387 instances, with 39,554 for training and 4,833 for testing, suitable for the task of translating natural language to Cypher queries.

提供机构：

neo4j

搜集汇总

数据集介绍

构建方式

在知识图谱与自然语言处理交叉领域，Neo4j-Text2Cypher-2024v1数据集的构建体现了系统化整合与精炼的理念。该数据集通过汇集多个公开可用的文本到Cypher查询数据集，包括来自Neo4j实验室的功能性Cypher生成器、基于GPT-4、Claude Opus等大语言模型生成的合成数据、众包数据以及其他研究社区贡献的数据源。构建过程涉及数据清洗、去重与标准化，最终形成包含44,387个实例的集合，其中训练集39,554例，测试集4,833例。每个实例均以“问题、模式、Cypher查询”三元组为核心结构，并辅以数据源标识、实例ID及数据库参考别名等元数据，确保了数据的一致性与可追溯性。

特点

该数据集的核心特征在于其结构化与多样性。每个数据条目均严格遵循“问题-模式-查询”三元组范式，其中自然语言问题与对应的Cypher查询形成精准映射，数据库模式则提供了必要的上下文约束。数据来源高度多元化，涵盖了功能性生成、多模型合成、众包采集以及既有基准数据集，这种混合来源策略有效提升了数据在查询复杂度、领域覆盖和语言表达上的丰富性。此外，数据集明确区分训练与测试分割，并附带详尽的元数据字段，为模型训练、评估及深入的误差分析提供了坚实基础，尤其适用于推动文本到Cypher查询转换任务的进展。

使用方法

该数据集主要服务于文本到Cypher查询生成任务的模型训练与评估。使用者可通过Hugging Face平台直接加载数据集，利用其标准的训练与测试分割进行模型开发。典型的工作流程是，将“question”字段作为模型输入，将“cypher”字段作为目标输出进行监督学习；同时，“schema”字段可作为额外的上下文信息输入，以增强模型对数据库结构的理解。研究人员还可利用“data_source”和“database_reference_alias”等字段对模型性能进行分源或分库的细粒度分析，以探究模型在不同数据分布上的泛化能力。数据集适用于微调预训练语言模型或构建专门的文本到代码生成系统。

背景与挑战

背景概述

在知识图谱与图数据库技术蓬勃发展的背景下，自然语言到结构化查询语言的自动转换成为连接非技术用户与复杂图数据的关键桥梁。Neo4j-Text2Cypher (2024) 数据集由Neo4j实验室于2024年构建并发布，旨在系统性地解决自然语言到Cypher查询语言的转换问题。该数据集整合了来自多个公开来源的44,387个实例，以“问题-模式-查询”三元组为核心结构，为训练和评估文本到Cypher的生成模型提供了高质量、标准化的语料基础。其创建不仅推动了图数据库查询接口的智能化进程，也为语义解析和代码生成领域的研究注入了新的活力。

当前挑战

该数据集致力于攻克自然语言到Cypher查询转换这一核心领域挑战，其难点在于精准捕捉用户模糊、多样的自然语言意图，并将其映射为符合特定图数据库模式的、语法与语义皆正确的Cypher语句。这要求模型深刻理解复杂的图模式、关系路径及聚合操作。在构建过程中，挑战同样显著：需从异构的公开数据源中收集、清洗并统一格式，确保数据质量与一致性；同时，处理不同来源数据库模式的多样性，并纠正数据中存在的标注错误（如数据库别名拼写不一致），以构建一个可靠且具有广泛代表性的基准数据集。

常用场景

经典使用场景

在知识图谱与图数据库领域，Neo4j-Text2Cypher数据集为自然语言到Cypher查询语言的转换任务提供了标准化的训练与评估基准。该数据集通过整合多个公开来源的“问题-模式-Cypher”三元组，构建了一个规模可观且结构清晰的语料库，使得研究人员能够系统地训练和验证文本到Cypher的生成模型。其经典应用场景聚焦于自动化查询生成，即用户以自然语言提出关于图数据库的问题，模型则需理解其语义并生成对应的Cypher查询语句，从而实现对图数据库中复杂关系的智能检索与探索。

衍生相关工作

围绕该数据集，已衍生出一系列探索文本到Cypher生成的经典研究工作。这些工作主要集中于利用预训练语言模型（如T5、GPT系列）进行微调，或设计专门的架构来融合数据库模式信息。例如，基于该数据集或其前身版本，研究者开发了专用于Neo4j的Text2Cypher模型原型，并探索了检索增强生成（RAG）技术在提升查询准确率方面的应用。同时，该数据集也常被用作基准，用于评估和比较不同模型在复杂图查询生成任务上的性能，推动了相关模型在泛化能力、模式理解与零样本学习等方面的持续优化。

数据集最近研究