tomasonjo/text2cypher-gpt4o-clean

Name: tomasonjo/text2cypher-gpt4o-clean
Creator: tomasonjo
Published: 2024-05-15 13:25:58
License: 暂无描述

Hugging Face2024-05-15 更新2024-05-25 收录

下载链接：

https://hf-mirror.com/datasets/tomasonjo/text2cypher-gpt4o-clean

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个使用GPT-4o在16种不同图模式上生成的文本到Cypher的合成数据集。问题由GPT-4-turbo生成，相应的Cypher语句由GPT-4o使用思维链生成。数据集中仅包含在数据库中查询时返回结果的问题。数据集以`train.csv`文件形式提供，包含以下列：`question`（自然语言问题）、`cypher`（基于提供的问题生成的Cypher语句）、`schema`（模式的文本表示）和`database`（使用的数据库）。该数据集可用于多种研究和开发任务，如评估语法错误、检测模式幻觉、基准测试LLM性能、微调LLMs和提示工程。

提供机构：

tomasonjo

原始信息汇总

数据集概述

基本信息

许可证: Apache-2.0
任务类别: 文本到文本生成（text2text-generation）
语言: 英语（en）
标签: 图（graph）, Cypher, Neo4j, 合成（synthetic）, text2cypher
数据集大小: 1K<n<10K
数据集名称: Clean text2cypher dataset generated with gpt-4o on 16 different graph schemas

数据集描述

创建方式: 使用GPT-4-turbo生成问题，通过gpt-4o使用思维链（Chain of Thought）生成对应的Cypher语句。
数据集内容: 包含16种不同图模式下的文本到Cypher生成数据。
数据集文件: 提供train.csv文件，包含以下列：
- question: 自然语言问题
- cypher: 基于提供问题的对应Cypher语句
- schema: 模式文本表示
- database: 使用的数据库

数据集用途

评估语法错误: 分析和分类LLM生成的语法错误类型，以改进Cypher语句生成中的错误处理和调试能力。
检测模式幻觉: 评估LLM何时幻觉图模式元素不存在于数据库中，有助于改进模式感知模型训练。
基准测试LLM性能: 使用数据集评估不同LLM生成有效Cypher查询的性能，提供模型能力和限制的洞察。
微调LLMs: 利用数据集对域特定语言如Cypher进行LLM微调，增强生成数据库查询的准确性和效率。
提示工程: 确定产生最准确Cypher语句的提示。

5,000+

优质数据集

54 个

任务类型

进入经典数据集