five

gretelai/synthetic_text_to_sql

收藏
Hugging Face2025-12-16 更新2024-04-19 收录
下载链接:
https://hf-mirror.com/datasets/gretelai/synthetic_text_to_sql
下载链接
链接失效反馈
官方服务:
资源简介:
gretelai/synthetic_text_to_sql数据集是一个高质量的合成Text-to-SQL样本数据集,使用Gretel Navigator生成,并包含105,851条记录,分为100,000条训练记录和5,851条测试记录。数据集覆盖了100个不同的领域,包含了多种SQL任务,如数据定义、检索、操作、分析和报告。此外,数据集还提供了SQL查询的自然语言解释和上下文标签,以优化模型训练。数据集的质量通过LLM-as-a-judge技术进行评估,结果显示其在SQL标准合规性、SQL正确性和指令遵循性方面表现优异。

The gretelai/synthetic_text_to_sql dataset is a high-quality synthetic Text-to-SQL sample dataset generated using Gretel Navigator, which contains 105,851 records split into 100,000 training records and 5,851 test records. It covers 100 distinct domains and encompasses a variety of SQL tasks including data definition, retrieval, manipulation, analysis and reporting. Furthermore, the dataset provides natural language explanations and contextual labels for SQL queries to optimize model training. The quality of the dataset has been evaluated using the LLM-as-a-judge technique, and the results demonstrate its excellent performance in SQL standard compliance, SQL correctness and instruction following.
提供机构:
gretelai
原始信息汇总

数据集概述

基本信息

  • 名称: gretelai/synthetic_text_to_sql
  • 许可证: Apache-2.0
  • 语言: 英语
  • 标签: 合成, SQL, 文本到SQL, 代码
  • 任务类别: 问答, 表格问答, 文本生成
  • 大小类别: 100K<n<1M

数据集内容

  • 记录数: 105,851,其中训练集100,000条,测试集5,851条
  • 总令牌数: 约23M,包括约12M SQL令牌
  • 覆盖领域: 100个不同的领域/垂直领域
  • SQL任务类型: 数据定义、检索、操作、分析与报告
  • SQL复杂度: 包括子查询、单连接、多连接、聚合、窗口函数、集合操作
  • 数据库上下文: 包括表和视图创建语句
  • 自然语言解释: 对SQL查询的解释
  • 上下文标签: 用于优化模型训练

数据集特点

  • 多样性: 涵盖广泛的SQL复杂度和任务类型
  • 质量: 通过LLM-as-a-judge技术评估,与b-mc2/sql-create-context数据集相比,在SQL标准合规性、正确性和指令遵循性方面得分更高
  • 应用: 适用于开发、研究和数据爱好者,用于构建和优化文本到SQL的模型

数据集结构

  • 字段数: 11个
  • 示例字段: id, domain, domain_description, sql_complexity, sql_complexity_description, sql_task_type, sql_task_type_description, sql_prompt, sql_context, sql, sql_explanation

数据质量评估

  • 评估方法: 使用GPT-4对1,000个随机样本进行评分,并与b-mc2/sql-create-context数据集进行比较
  • 评估结果: 在多个评估标准上表现优于对比数据集

引用信息

@software{gretel-synthetic-text-to-sql-2024, author = {Meyer, Yev and Emadi, Marjan and Nathawani, Dhruv and Ramaswamy, Lipika and Boyd, Kendrick and Van Segbroeck, Maarten and Grossman, Matthew and Mlocek, Piotr and Newberry, Drew}, title = {{Synthetic-Text-To-SQL}: A synthetic dataset for training language models to generate SQL queries from natural language prompts}, month = {April}, year = {2024}, url = {https://huggingface.co/datasets/gretelai/synthetic-text-to-sql} }

搜集汇总
数据集介绍
main_image_url
构建方式
gretelai/synthetic_text_to_sql数据集是通过Gretel Navigator工具设计并生成的,该数据集包含高质量的合成文本到SQL样本。数据集的构建涉及105,851条记录,分为100,000条训练记录和5,851条测试记录,涵盖了100个不同的领域/垂直领域,并包含了从数据定义到报告分析等全面的SQL任务类型。每条记录都包括自然语言解释和SQL查询的上下文,以及用于优化模型训练的上下文标签。
使用方法
使用gretelai/synthetic_text_to_sql数据集时,用户可以直接从HuggingFace平台加载数据集,并根据需要选择训练或测试部分。数据集的每个样本都包含了丰富的字段,如领域、SQL复杂性、任务类型、SQL提示、上下文、SQL查询和解释等,这些字段可以用于训练和评估自然语言到SQL的转换模型。用户还可以利用数据集中的上下文标签来优化模型训练过程。
背景与挑战
背景概述
在自然语言处理与数据库交互领域,gretelai/synthetic_text_to_sql数据集的构建旨在推进文本到SQL查询生成的技术研究。该数据集由Gretel Navigator生成,并于2024年4月发布,包含10万余条高质量的合成文本到SQL样本,覆盖了100个不同的领域和行业。数据集的核心研究问题是提高自然语言理解与SQL生成的准确性和多样性,以满足复杂多变的查询需求。作为迄今为止最大的合成文本到SQL数据集,它对相关领域的研究产生了重要影响,为开发更加智能的数据库交互系统提供了丰富的资源。
当前挑战
尽管gretelai/synthetic_text_to_sql数据集在多样性和覆盖面上取得了显著成就,但在构建过程中也面临着诸多挑战。首先,确保SQL查询的准确性和语法正确性是一大挑战,需要复杂的逻辑验证和错误检查机制。其次,构建能够准确反映现实世界数据库场景的合成数据,需要深度理解各领域的业务逻辑和数据结构。此外,数据集的构建还需考虑到SQL任务的复杂性,包括但不限于子查询、多表连接、聚合函数、窗口函数和集合操作等,这些都在数据集设计和生成过程中提出了更高的要求。
常用场景
经典使用场景
在自然语言处理与数据库交互领域,gretelai/synthetic_text_to_sql数据集以其丰富的合成文本到SQL样本,成为研究者和开发者训练和评估模型的重要资源。该数据集的经典使用场景在于,通过提供覆盖不同复杂度级别的SQL任务,使得研究者能够构建和优化能够理解自然语言查询并生成相应SQL查询的语言模型。
解决学术问题
该数据集解决了自然语言处理领域中的关键学术问题,即如何将自然语言查询有效地映射到结构化查询语言(SQL)。它为研究者提供了一个高质量、多样化的数据源,有助于提升模型的准确性和泛化能力,对于推动文本到SQL任务的研究具有重要意义。
实际应用
在实际应用中,gretelai/synthetic_text_to_sql数据集可用于开发智能问答系统,特别是在需要处理数据库查询的复杂场景中。例如,在医疗健康信息系统中,系统可以利用该数据集训练出的模型,快速响应用户对医疗数据的查询请求,提高服务效率。
数据集最近研究
最新研究方向
在自然语言处理与数据库交互领域,gretelai/synthetic_text_to_sql数据集以其丰富的合成文本到SQL样本,成为研究的热点。该数据集不仅涵盖了广泛的应用领域和SQL复杂度级别,还为模型训练提供了优化的上下文标签。近期研究集中于利用此数据集提升语言模型生成SQL查询的能力,特别是在数据定义、检索、操作、分析和报告等任务类型上。此外,该数据集在SQL标准遵守性、正确性和指令遵循性方面的优异表现,为研究者在构建和评估数据驱动的智能系统时提供了可靠的基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作