synthetic_text_to_sql_reasoning
收藏数据集概述
基本信息
- 许可证: Apache 2.0
- 任务类别: 文本生成
- 语言: 英语
- 标签: SQL、代码生成、推理、合成
- 规模: 10万到100万条记录
数据集描述
该数据集是gretelai/synthetic_text_to_sql的增强版本,使用Nemo Data Designer和openai/gpt-oss-120b添加了合成推理痕迹。
原始数据集包含:
- 105,851条记录,分为100,000条训练记录和5,851条测试记录
- 约2300万个总标记,包括约1200万个SQL标记
- 覆盖100个不同领域/垂直行业
- 全面的SQL任务:数据定义、检索、操作、分析和报告
- 广泛的SQL复杂度级别,包括子查询、单连接、多连接、聚合、窗口函数、集合操作
- 数据库上下文,包括表和视图创建语句
- SQL查询的自然语言解释
- 优化模型训练的上下文标签
增强功能:推理痕迹
此增强版本添加了:
- 详细的推理痕迹,展示SQL生成的逐步思考过程
- 使用LLM法官对推理痕迹进行质量评估
- 用于教授系统SQL生成方法的训练优化格式
每条记录现在包括:
reasoning_trace:包含6-12个推理步骤的结构化JSON对象,展示如何系统处理SQL生成问题quality_assessment:LLM法官对推理痕迹质量的评估(0-4分制)
预期用途
该数据集设计用于训练大型语言模型以系统推理方法生成SQL查询。推理痕迹可作为模型将自然语言请求转换为SQL时学习的示例思维模式。
生成过程
推理痕迹使用以下工具生成:
- 生成模型:通过Nemo Data Designer使用openai/gpt-oss-120b
- 评估模型:使用openai/gpt-oss-120b进行质量评估
- 系统:采用逆向推理模拟技术,从现有SQL解决方案生成导致它们的推理过程
数据集结构
json { "id": 5097, "domain": "forestry", "sql_prompt": "What is the total volume of timber sold by each salesperson, sorted by salesperson?", "sql_context": "CREATE TABLE salesperson...", "sql": "SELECT salesperson_id, name, SUM(volume)...", "sql_explanation": "Joins timber_sales and salesperson tables...", "reasoning_trace": { "reasoning_steps": [ "1. Parse the request: identify the metric...", "2. List the tables in the schema...", "..." ] }, "quality_assessment": { "ReasoningQuality": { "score": "3", "reasoning": "The reasoning trace is thorough..." } } }
引用
如果使用此数据集,请同时引用原始Gretel数据集并提及推理增强:
Original dataset: gretelai/synthetic_text_to_sql Enhanced with reasoning traces using Nemo Data Designer and openai/gpt-oss-120b




