Cypher_Generator

github2024-05-23 更新2024-05-31 收录

下载链接：

https://github.com/SolanaO/Cypher_Generator

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含问题和Cypher查询对，用于微调大型语言模型以从自然语言问题生成Cypher代码。数据集通过使用Neo4j图数据库的知识图谱模式和节点及关系实例生成，旨在辅助自然表达问题的微调数据集。

This dataset comprises pairs of questions and Cypher queries, designed for fine-tuning large language models to generate Cypher code from natural language questions. The dataset is generated using the knowledge graph schema and instances of nodes and relationships from the Neo4j graph database, aiming to facilitate the fine-tuning of datasets for naturally expressed questions.

创建时间：

2023-10-25

原始信息汇总

数据集概述

数据集名称

Cypher_Generator

数据集内容

本数据集包含监督式微调数据集，主要由问题与Cypher查询对组成。每个问题基于节点标签、属性或关系类型及其属性生成。

数据集生成方法

使用约100个生成函数。
通过Neo4j图数据库提取知识图谱模式及多个节点和关系实例来生成问题-Cypher查询对。

数据集使用指南

数据集生成过程以笔记本格式提供，具体步骤见SFT_Functional_Data_Builder.ipynb。
笔记本内多个步骤可调整以适应特定用户需求。
部分功能依赖于utils目录中的模块。

相关资源

包含两个微调笔记本，使用QLoRA减轻计算需求，结合PEFT和TRL（来自HuggingFace），以及CodeLlama-13B和StarCoder2-3B大型语言模型。

搜集汇总

数据集介绍

构建方式

该数据集的构建方式基于约100个生成函数，通过从Neo4j图数据库中提取知识图谱的架构及多个节点和关系实例，生成问题与Cypher查询对。具体而言，数据集的生成过程在Jupyter Notebook中详细记录，用户可通过获取Neo4j知识图谱的凭证并遵循Notebook中的步骤来生成数据集。此过程中，用户可根据特定需求调整多个步骤，部分功能依赖于`utils`目录中的模块。

特点

该数据集的主要特点在于其生成的问题与Cypher查询对具有高度的结构化和机械性，这使得它们在监督微调数据集中能够有效补充自然表达的问题。此外，数据集的生成过程透明且易于使用，通过Notebook格式提供，确保了用户可以轻松地理解和复现数据集的构建过程。

使用方法

使用该数据集时，用户首先需获取Neo4j知识图谱的凭证，并按照`SFT_Functional_Data_Builder.ipynb` Notebook中的步骤进行操作。此外，数据集中还包含了两个微调Notebook，利用QLoRA技术减轻计算负担，结合HuggingFace的PEFT和TRL，以及`CodeLlama-13B`和`StarCoder2-3B`大型语言模型，为用户提供了便捷的微调工具。

背景与挑战

背景概述

Cypher_Generator数据集由一组研究人员或机构创建，专注于生成监督微调数据集，包含问题与Cypher查询对。该数据集的核心研究问题在于如何通过机械化的问题生成方式，有效补充自然语句问题，从而提升微调数据集的质量。通过利用约100个生成函数，结合Neo4j图数据库的知识图谱模式及节点和关系实例，研究人员成功构建了这一数据集。此数据集的创建不仅推动了图数据库查询语言的优化研究，也为自然语言处理领域提供了新的数据资源。

当前挑战

Cypher_Generator数据集在构建过程中面临多项挑战。首先，生成机械化问题的过程需要精确控制节点标签、属性和关系类型，确保生成的查询对具有实际应用价值。其次，数据集的生成依赖于Neo4j图数据库，这要求研究人员具备深厚的图数据库操作技能。此外，数据集的透明性和易用性也是一大挑战，研究人员通过提供详细的笔记本格式生成过程，以及可调整的生成步骤，来应对这一挑战。最后，数据集的生成还需考虑计算资源的有效利用，通过使用QLoRA、PEFT和TRL等技术，研究人员在降低计算需求的同时，确保了数据集的质量。

常用场景

经典使用场景

Cypher_Generator数据集的经典使用场景在于其能够生成监督微调数据集，该数据集由问题与Cypher查询对组成。这些问题通常基于节点标签、属性或关系类型及其属性，尽管这些问题可能显得较为机械，但它们在微调数据集中与自然表达的问题形成有效互补。通过使用约100个生成函数，该数据集能够从Neo4j图数据库中提取知识图谱模式及多个节点和关系实例，从而生成高质量的训练数据。

衍生相关工作

Cypher_Generator数据集的发布催生了一系列相关研究和工作，特别是在图数据库查询语言与自然语言处理的交叉领域。例如，研究者们利用该数据集开发了多种基于Cypher查询的问答系统，这些系统在处理复杂查询时表现出色。此外，该数据集还激发了对大规模语言模型（如CodeLlama-13B和StarCoder2-3B）在图数据库查询任务中应用的研究，推动了相关技术的进一步发展。

数据集最近研究