tomasonjo/text2cypher-gpt4o-clean
收藏Hugging Face2024-05-15 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/tomasonjo/text2cypher-gpt4o-clean
下载链接
链接失效反馈官方服务:
资源简介:
这是一个使用GPT-4o在16种不同图模式上生成的文本到Cypher的合成数据集。问题由GPT-4-turbo生成,相应的Cypher语句由GPT-4o使用思维链生成。数据集中仅包含在数据库中查询时返回结果的问题。数据集以`train.csv`文件形式提供,包含以下列:`question`(自然语言问题)、`cypher`(基于提供的问题生成的Cypher语句)、`schema`(模式的文本表示)和`database`(使用的数据库)。该数据集可用于多种研究和开发任务,如评估语法错误、检测模式幻觉、基准测试LLM性能、微调LLMs和提示工程。
提供机构:
tomasonjo
原始信息汇总
数据集概述
基本信息
- 许可证: Apache-2.0
- 任务类别: 文本到文本生成(text2text-generation)
- 语言: 英语(en)
- 标签: 图(graph), Cypher, Neo4j, 合成(synthetic), text2cypher
- 数据集大小: 1K<n<10K
- 数据集名称: Clean text2cypher dataset generated with gpt-4o on 16 different graph schemas
数据集描述
- 创建方式: 使用GPT-4-turbo生成问题,通过
gpt-4o使用思维链(Chain of Thought)生成对应的Cypher语句。 - 数据集内容: 包含16种不同图模式下的文本到Cypher生成数据。
- 数据集文件: 提供
train.csv文件,包含以下列:question: 自然语言问题cypher: 基于提供问题的对应Cypher语句schema: 模式文本表示database: 使用的数据库
数据集用途
- 评估语法错误: 分析和分类LLM生成的语法错误类型,以改进Cypher语句生成中的错误处理和调试能力。
- 检测模式幻觉: 评估LLM何时幻觉图模式元素不存在于数据库中,有助于改进模式感知模型训练。
- 基准测试LLM性能: 使用数据集评估不同LLM生成有效Cypher查询的性能,提供模型能力和限制的洞察。
- 微调LLMs: 利用数据集对域特定语言如Cypher进行LLM微调,增强生成数据库查询的准确性和效率。
- 提示工程: 确定产生最准确Cypher语句的提示。



