text2cypher-2024v1

Name: text2cypher-2024v1
Creator: Neo4j
Published: 2024-12-13T19:50:51+08:00

arXiv2024-12-13 更新2024-12-17 收录

自然语言处理

图数据库

数据链接：

https://huggingface.co/datasets/neo4j/text2cypher-2024v1 数据链接链接失效反馈

官方服务：

资源简介：

text2cypher-2024v1数据集由Neo4j公司创建，旨在将自然语言查询转换为Cypher查询语言，以扩展非技术专家用户对知识图谱的利用。该数据集包含44,387个实例，分为39,554个训练实例和4,833个测试实例。数据集通过整合和清洗多个公开可用的数据集构建，确保了数据的高质量和多样性。创建过程包括数据收集、清洗和标准化，最终形成了适用于模型微调和评估的结构化数据集。该数据集主要应用于自然语言处理和图数据库查询领域，旨在解决非专家用户在查询复杂知识图谱时的技术障碍。

The text2cypher-2024v1 dataset, developed by Neo4j, is engineered to translate natural language queries into Cypher query language, with the goal of expanding non-technical users' utilization of knowledge graphs. This dataset comprises 44,387 total instances, split into 39,554 training instances and 4,833 test instances. It is constructed by integrating and cleaning multiple publicly available datasets, ensuring high data quality and diversity. The development workflow encompasses data collection, cleaning and standardization, ultimately yielding a structured dataset suitable for model fine-tuning and evaluation. This dataset is primarily applied in the domains of natural language processing and graph database querying, aiming to address the technical barriers faced by non-expert users when querying complex knowledge graphs.

提供机构：

Neo4j

创建时间：

2024-12-13

原始信息汇总

Neo4j-Text2Cypher (2024) Dataset

数据集概述

Neo4j-Text2Cypher (2024) Dataset 是一个整合了公开可用数据集的实例，经过清理和组织，以便更顺畅地使用。每个条目至少包含一个“问题、模式、Cypher”三元组，总共有44,387个实例，其中39,554个用于训练，4,833个用于测试。

数据集信息

特征:
- question: 用户提出的文本问题，类型为字符串。
- schema: 数据库模式，类型为字符串。
- cypher: 输出的Cypher查询，类型为字符串。
- data_source: 数据集来源的别名，类型为字符串。
- instance_id: 每行的增量索引，类型为字符串。
- database_reference_alias: 数据库的别名（如果可用），类型为字符串。
数据分割:
- train: 训练集，包含39,554个样本，大小为88,717,369字节。
- test: 测试集，包含4,833个样本，大小为11,304,360字节。
下载大小: 8,169,979字节
数据集大小: 100,021,729字节
配置:
- default: 默认配置，包含训练集和测试集的数据文件路径。
许可证: Apache-2.0
任务类别:
- text2text-generation
语言:
- en
标签:
- neo4j
- cypher
- text2cypher
数据集名称: Neo4j-Text2Cypher Dataset (2024)
数据集规模: 10K < n < 100K

字段描述

字段	描述
`question`	用户提出的文本问题。例如，“What is the total number of companies?”
`schema`	数据库模式。
`cypher`	输出的Cypher查询。例如，“MATCH (c:Company) RETURN COUNT(c)”
`data_source`	数据集来源的别名。例如，"neo4jLabs_synthetic_gpt4turbo"
`database_reference_alias`	数据库的别名（如果可用）。例如，None, "neo4jlabs_demo_db_stackoverflow"
`instance_id`	每行的增量索引。

数据来源

数据来源如下：

名称	别名	链接
Functional Cypher Generator (neo4j-labs/text2cypher)	neo4jLabs_text2cypher_functionalCypher_parametricTrainerWithRepeats	Link
Synthetic gemini demodbs (neo4j-labs/text2cypher)	neo4jLabs_text2cypher_gemini	Link
Synthetic gpt4o demodbs (neo4j-labs/text2cypher)	neo4jLabs_text2cypher_gpt4o	Link
Synthetic gpt4turbo demodbs (neo4j-labs/text2cypher)	neo4jLabs_text2cypher_gpt4turbo	Link
Synthetic opus demodbs (neo4j-labs/text2cypher)	neo4jLabs_text2cypher_claudeopus	Link
Rag-Eval datasets	neo4j_rageval_[movies,products]_text2cypher_results	N/A
Neo4j-Text2Cypher’23 datasets	neo4j_text2cypher2023-[train, test]	N/A
Crowdsourcing dataset	neo4j_crowdsourced_text2cypher_raw	N/A
HF-iprahara/text_to_cypher	hf_iprahara_text_to_cypher	Link
HF-dfwlab/cypher	hf_dfwlab_cypher_eng-to-cypher	Link
HF-vedana17/text-to-cypher	hf_vedana17_text-to-cypher_dataset	Link
Cy-Spider	cySpider_semanticParser4Graph_data_folder	Link

搜集汇总

数据集介绍

构建方式

text2cypher-2024v1数据集的构建过程主要通过整合和清洗多个公开可用的数据集来实现。首先，研究团队从Neo4j资源、HuggingFace数据集以及学术论文中识别并收集了25个相关数据集，最终筛选出16个符合要求的数据集。这些数据集包含了自然语言问题与Cypher查询对，以及数据库模式信息。随后，团队将这些数据集标准化为统一的格式，每条记录包含问题、模式、Cypher查询、数据来源、数据库引用和实例ID等字段。为了提高数据质量，团队进行了手动检查和语法验证，确保Cypher查询的正确性，并去除了重复和无关的实例。最终，数据集被划分为训练集和测试集，分别包含39,554和4,833个实例。

特点

text2cypher-2024v1数据集的主要特点在于其规模和多样性。该数据集包含44,387个实例，涵盖了多种自然语言问题与对应的Cypher查询，能够有效支持模型在Text2Cypher任务中的训练和评估。数据集的构建过程中，团队特别注重数据的清洗和标准化，确保了数据的高质量和一致性。此外，数据集还包含了数据库模式信息，这为模型提供了更丰富的上下文，有助于提高查询生成的准确性。

使用方法

text2cypher-2024v1数据集主要用于训练和评估Text2Cypher任务的模型。用户可以通过该数据集对大型语言模型进行微调，以提高其将自然语言问题转换为Cypher查询的能力。数据集的训练集部分可用于模型的训练，而测试集则用于评估模型的性能。评估指标包括Google-BLEU和Exact Match等，这些指标能够全面衡量模型在生成Cypher查询时的准确性和完整性。通过使用该数据集，研究人员和开发者可以更好地理解和优化Text2Cypher任务中的模型表现。

背景与挑战

背景概述

Text2Cypher-2024v1数据集由Neo4j公司的研究人员Makbule Gulcin Ozsoy、Leila Messallem、Jon Besga和Gianandrea Minneci于2024年创建。该数据集的核心研究问题在于如何将自然语言查询转换为Cypher查询语言，从而使非技术专家用户能够更便捷地访问和操作图数据库。随着图数据库在知识图谱中的广泛应用，Cypher作为一种高效的查询语言，其复杂性却限制了非专业用户的参与。Text2Cypher-2024v1数据集通过整合和清洗多个公开数据集，构建了一个包含44,387个实例的高质量数据集，旨在为大语言模型（LLMs）的微调提供支持，从而提升自然语言到Cypher查询的转换性能。该数据集的发布不仅填补了领域内的空白，还为图数据库的普及和应用提供了新的可能性。

当前挑战

Text2Cypher-2024v1数据集在构建过程中面临多项挑战。首先，自然语言到Cypher查询的转换任务本身具有复杂性，尤其是处理多跳查询和复杂图结构时，大语言模型往往难以捕捉细微的语义差异，导致输出不完整或错误。其次，高质量的Text2Cypher数据集稀缺，现有的公开数据集多为独立构建，难以整合使用，这增加了数据集构建的难度。此外，数据集的清洗和标准化过程也面临挑战，包括手动检查错误、语法验证以及去重等步骤，这些都需要耗费大量的人力和时间。最后，数据集的分布和多样性问题也值得关注，确保训练集和测试集的平衡性以及数据来源的广泛性，以避免模型过拟合或性能评估的偏差。

常用场景

经典使用场景

text2cypher-2024v1数据集的经典使用场景在于其能够将自然语言查询转换为Cypher查询语言，从而使得非技术用户能够轻松地与图数据库进行交互。通过该数据集，用户可以输入如“汤姆·汉克斯演了哪些电影？”这样的自然语言问题，模型会将其转换为相应的Cypher查询，如‘MATCH (actor:Person {name: "Tom Hanks"})-[:ACTED_IN]->(movie:Movie) RETURN movie.title AS movies’，从而从图数据库中提取所需信息。

实际应用

text2cypher-2024v1数据集在实际应用中具有广泛的前景，尤其是在需要高效查询和可视化复杂关系数据的场景中。例如，在企业知识管理系统中，员工可以通过自然语言查询快速获取公司内部的知识图谱信息；在医疗领域，医生可以通过自然语言查询患者的病历和治疗历史，从而做出更精准的诊断。此外，该数据集还可用于构建智能助手和数据分析仪表盘，进一步提升数据驱动的决策能力。

衍生相关工作

text2cypher-2024v1数据集的发布催生了一系列相关研究工作，特别是在自然语言与图数据库交互领域。例如，基于该数据集的微调模型在多个基准测试中表现优异，推动了Text2Cypher任务的进一步发展。此外，该数据集还启发了其他研究者构建类似的自然语言与图查询转换数据集，如S2CTrans和CySpider，这些工作进一步丰富了图数据库查询的研究生态，促进了自然语言处理与数据库技术的深度融合。

以上内容由遇见数据集搜集并总结生成