five

tomasonjo/synthetic-text2cypher-gpt4turbo

收藏
Hugging Face2024-05-02 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/tomasonjo/synthetic-text2cypher-gpt4turbo
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是一个合成的文本到Cypher语句转换数据集,涵盖了16种不同的图模式。问题和Cypher查询均使用GPT-4-Turbo生成。数据集包含自然语言问题、对应的Cypher语句、问题类型、目标数据库、语法错误、超时情况、返回结果以及是否使用了图中不存在的模式部分等信息。该数据集可用于评估语法错误、检测模式幻觉、基准测试LLM性能和微调LLMs等研究和开发任务。

该数据集是一个合成的文本到Cypher语句转换数据集,涵盖了16种不同的图模式。问题和Cypher查询均使用GPT-4-Turbo生成。数据集包含自然语言问题、对应的Cypher语句、问题类型、目标数据库、语法错误、超时情况、返回结果以及是否使用了图中不存在的模式部分等信息。该数据集可用于评估语法错误、检测模式幻觉、基准测试LLM性能和微调LLMs等研究和开发任务。
提供机构:
tomasonjo
原始信息汇总

数据集概述

基本信息

  • 许可证: Apache-2.0
  • 任务类别: 文本到文本生成(text2text-generation)
  • 语言: 英语(en)
  • 标签: 代码(code), 合成(synthetic)
  • 美观名称: 用于将自然语言转换为Cypher语句的合成text2cypher数据集
  • 大小分类: 1K<n<10K

数据集描述

  • 创建方式: 使用GPT-4-Turbo生成
  • 内容: 包含16种不同图模式的text2cypher数据集
  • 生成过程: 问题和Cypher查询均由GPT-4-Turbo生成

数据集结构

  • 文件: text2cypher_gpt4turbo.csv
  • 列信息:
    • question: 自然语言问题
    • cypher: 基于问题的相应Cypher语句
    • type: 问题类型
    • database: 目标数据库
    • syntax_error: Cypher语句是否导致语法错误
    • timeout: Cypher语句是否执行超过10秒
    • returns_results: Cypher语句是否返回非空结果
    • false_schema: Cypher语句是否使用了图模式中不存在的部分

潜在应用

  • 评估语法错误: 分析和分类由LLM生成的语法错误类型,以改进Cypher语句生成中的错误处理和调试能力。
  • 检测模式幻觉: 评估LLM何时幻觉图模式元素不存在于数据库中,有助于改进模式感知模型训练。
  • 基准测试LLM性能: 使用数据集评估不同LLM生成有效Cypher查询的性能,提供模型能力和限制的洞察。
  • 微调LLMs: 利用数据集对LLMs进行特定领域语言(如Cypher)的微调,以提高生成数据库查询的准确性和效率。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作