tomasonjo/synthetic-text2cypher-gpt4turbo
收藏Hugging Face2024-05-02 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/tomasonjo/synthetic-text2cypher-gpt4turbo
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是一个合成的文本到Cypher语句转换数据集,涵盖了16种不同的图模式。问题和Cypher查询均使用GPT-4-Turbo生成。数据集包含自然语言问题、对应的Cypher语句、问题类型、目标数据库、语法错误、超时情况、返回结果以及是否使用了图中不存在的模式部分等信息。该数据集可用于评估语法错误、检测模式幻觉、基准测试LLM性能和微调LLMs等研究和开发任务。
该数据集是一个合成的文本到Cypher语句转换数据集,涵盖了16种不同的图模式。问题和Cypher查询均使用GPT-4-Turbo生成。数据集包含自然语言问题、对应的Cypher语句、问题类型、目标数据库、语法错误、超时情况、返回结果以及是否使用了图中不存在的模式部分等信息。该数据集可用于评估语法错误、检测模式幻觉、基准测试LLM性能和微调LLMs等研究和开发任务。
提供机构:
tomasonjo
原始信息汇总
数据集概述
基本信息
- 许可证: Apache-2.0
- 任务类别: 文本到文本生成(text2text-generation)
- 语言: 英语(en)
- 标签: 代码(code), 合成(synthetic)
- 美观名称: 用于将自然语言转换为Cypher语句的合成text2cypher数据集
- 大小分类: 1K<n<10K
数据集描述
- 创建方式: 使用GPT-4-Turbo生成
- 内容: 包含16种不同图模式的text2cypher数据集
- 生成过程: 问题和Cypher查询均由GPT-4-Turbo生成
数据集结构
- 文件:
text2cypher_gpt4turbo.csv - 列信息:
question: 自然语言问题cypher: 基于问题的相应Cypher语句type: 问题类型database: 目标数据库syntax_error: Cypher语句是否导致语法错误timeout: Cypher语句是否执行超过10秒returns_results: Cypher语句是否返回非空结果false_schema: Cypher语句是否使用了图模式中不存在的部分
潜在应用
- 评估语法错误: 分析和分类由LLM生成的语法错误类型,以改进Cypher语句生成中的错误处理和调试能力。
- 检测模式幻觉: 评估LLM何时幻觉图模式元素不存在于数据库中,有助于改进模式感知模型训练。
- 基准测试LLM性能: 使用数据集评估不同LLM生成有效Cypher查询的性能,提供模型能力和限制的洞察。
- 微调LLMs: 利用数据集对LLMs进行特定领域语言(如Cypher)的微调,以提高生成数据库查询的准确性和效率。



