synthetic_text_to_sql_reasoning

Hugging Face2025-09-11 更新2025-09-12 收录

下载链接：

https://huggingface.co/datasets/meowterspace45/synthetic_text_to_sql_reasoning

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个使用Gretel Navigator设计和生成的、高质量的合成文本到SQL样本的丰富数据集，并遵循Apache 2.0协议发布。原始数据集包括105,851条记录，分为100,000条训练记录和5,851条测试记录，涵盖了100个不同的领域/垂直领域，包括数据定义、检索、操作、分析和报告的全面SQL任务。此外，数据集还包含了详细的推理轨迹，这些轨迹展示了如何系统地解决SQL生成问题的步骤，以及使用LLM评估的推理轨迹质量。数据集的目的是为了训练大型语言模型以生成带有系统性推理方法的SQL查询。

创建时间：

2025-09-10

原始信息汇总

数据集概述

基本信息

许可证: Apache 2.0
任务类别: 文本生成
语言: 英语
标签: SQL、代码生成、推理、合成
规模: 10万到100万条记录

数据集描述

该数据集是gretelai/synthetic_text_to_sql的增强版本，使用Nemo Data Designer和openai/gpt-oss-120b添加了合成推理痕迹。

原始数据集包含：

105,851条记录，分为100,000条训练记录和5,851条测试记录
约2300万个总标记，包括约1200万个SQL标记
覆盖100个不同领域/垂直行业
全面的SQL任务：数据定义、检索、操作、分析和报告
广泛的SQL复杂度级别，包括子查询、单连接、多连接、聚合、窗口函数、集合操作
数据库上下文，包括表和视图创建语句
SQL查询的自然语言解释
优化模型训练的上下文标签

增强功能：推理痕迹

此增强版本添加了：

详细的推理痕迹，展示SQL生成的逐步思考过程
使用LLM法官对推理痕迹进行质量评估
用于教授系统SQL生成方法的训练优化格式

每条记录现在包括：

reasoning_trace：包含6-12个推理步骤的结构化JSON对象，展示如何系统处理SQL生成问题
quality_assessment：LLM法官对推理痕迹质量的评估（0-4分制）

预期用途

该数据集设计用于训练大型语言模型以系统推理方法生成SQL查询。推理痕迹可作为模型将自然语言请求转换为SQL时学习的示例思维模式。

生成过程

推理痕迹使用以下工具生成：

生成模型：通过Nemo Data Designer使用openai/gpt-oss-120b
评估模型：使用openai/gpt-oss-120b进行质量评估
系统：采用逆向推理模拟技术，从现有SQL解决方案生成导致它们的推理过程

数据集结构

json { "id": 5097, "domain": "forestry", "sql_prompt": "What is the total volume of timber sold by each salesperson, sorted by salesperson?", "sql_context": "CREATE TABLE salesperson...", "sql": "SELECT salesperson_id, name, SUM(volume)...", "sql_explanation": "Joins timber_sales and salesperson tables...", "reasoning_trace": { "reasoning_steps": [ "1. Parse the request: identify the metric...", "2. List the tables in the schema...", "..." ] }, "quality_assessment": { "ReasoningQuality": { "score": "3", "reasoning": "The reasoning trace is thorough..." } } }

引用

如果使用此数据集，请同时引用原始Gretel数据集并提及推理增强：

Original dataset: gretelai/synthetic_text_to_sql Enhanced with reasoning traces using Nemo Data Designer and openai/gpt-oss-120b

搜集汇总

数据集介绍

构建方式

在文本转SQL领域，该数据集基于gretelai/synthetic_text_to_sql原始语料，通过Nemo Data Designer平台与openai/gpt-oss-120b模型构建增强版本。采用逆向推理模拟技术，为已有SQL查询生成配套的逐步推理轨迹，涵盖问题解析、表结构分析、查询逻辑构建等6至12个结构化步骤。每个推理轨迹均经过相同大模型的质量评估，形成包含质量分数与评估理由的标准化记录。

使用方法

该数据集专为训练具备逐步推理能力的大语言模型设计，使用者可直接将自然语言问题与配套推理轨迹作为训练对，引导模型学习从语义解析到SQL生成的系统化思维链。评估字段可用于筛选高质量样本优化训练效果，结构化推理步骤可拆解为思维链提示模板。实际应用时建议结合数据库上下文字段进行联合训练，以提升模型对跨领域表结构的适应性。

背景与挑战

背景概述

文本到SQL转换作为自然语言处理与数据库交互的核心技术，其发展历程中始终面临着语义理解与逻辑生成的挑战。synthetic_text_to_sql_reasoning数据集由Gretel机构基于其原始文本到SQL数据集进一步扩展而成，通过集成Nemo Data Designer平台与openai/gpt-oss-120b大模型生成能力，于近年推出。该数据集覆盖100个垂直领域，包含超过10万条训练样本与5000余条测试样本，不仅涵盖数据定义、检索、操作及复杂分析任务，还引入了逐步推理轨迹与质量评估机制，旨在推动模型在SQL生成过程中实现系统化推理，显著提升了文本到SQL任务的可解释性与准确性。

当前挑战

文本到SQL转换任务的核心挑战在于自然语言问句的多样性与数据库模式的复杂性之间的映射，需处理歧义消除、上下文依赖及多步逻辑推理。数据集构建过程中，生成高质量推理轨迹需模拟人类思维过程，确保每一步推理的连贯性与正确性；同时，利用大模型进行反向推理模拟时，需维持生成内容的结构一致性，并通过LLM评判机制对推理质量进行有效量化，以避免逻辑错误或语义偏差，保障训练数据的可靠性与实用性。

常用场景

经典使用场景

在自然语言处理与数据库交互领域，该数据集通过合成推理轨迹为文本到SQL转换任务提供了系统化解决方案。其经典应用场景聚焦于训练大型语言模型逐步解析自然语言查询，生成准确的结构化查询语句。数据集涵盖林业、金融等100个垂直领域，包含从简单检索到复杂窗口函数的多层次SQL任务，为模型提供了跨领域的语义理解与逻辑推理能力。

解决学术问题

该数据集有效解决了文本到SQL转换中的语义解析与逻辑推理分离问题。通过注入逐步推理轨迹，它帮助模型克服复杂查询中的多表联接、子查询嵌套和聚合操作等挑战。其质量评估机制为可解释AI研究提供了新范式，推动了神经符号推理领域的发展，使模型不仅输出结果更能展示人类般的思维链条。

实际应用

在实际应用层面，该数据集支撑了智能数据库助手系统的开发，使用户能够通过自然语言直接操作企业数据仓库。在商业智能场景中，它赋能非技术人员自主生成数据分析报表，大幅降低数据查询门槛。教育领域则利用其结构化推理过程构建SQL教学工具，为初学者提供可视化的查询逻辑分解与学习路径。

数据集最近研究