synthetic_text_to_sql_en_es
收藏Hugging Face2025-04-30 更新2025-05-01 收录
下载链接:
https://huggingface.co/datasets/TafcoMetawireless/synthetic_text_to_sql_en_es
下载链接
链接失效反馈官方服务:
资源简介:
这是一个通过Gretel Navigator生成的合成文本到SQL查询数据集,包含100,000条训练记录和5,851条测试记录,总共有约23M个标记,其中约12M是SQL标记。数据集覆盖了100个不同的领域,并提供了全面的SQL任务类型和复杂的SQL级别,包括子查询、单连接、多连接、聚合、窗口函数和集合操作。每个条目还包括数据库上下文、自然语言解释和上下文标签以优化模型训练。
创建时间:
2025-04-26
原始信息汇总
synthetic_text_to_sql_en_es 数据集概述
基本信息
- 许可证: Apache 2.0
- 任务类别: 问答、表格问答、文本生成
- 语言: 英语 (en)、西班牙语 (es)
- 标签: 合成数据、SQL、文本到SQL、代码
- 数据规模: 100K < n < 1M
数据集配置
- 默认配置:
- 训练集:
data/train-*,100,000 条样本 - 测试集:
data/test-*,5,851 条样本
- 训练集:
数据集特征
- 字段:
id: 唯一标识符 (int64)domain: 领域 (string)domain_description: 领域描述 (string)sql_complexity: SQL复杂度 (string)sql_complexity_description: SQL复杂度描述 (string)sql_task_type: SQL任务类型 (string)sql_task_type_description: SQL任务类型描述 (string)sql_prompt: SQL提示 (string)sql_context: SQL上下文 (string)sql: SQL查询 (string)sql_explanation: SQL解释 (string)sql_prompt_es: 西班牙语SQL提示 (string)
数据集来源与扩展
- 基础数据集: GretelAI/synthetic_text_to_sql
- 扩展内容: 新增西班牙语翻译列
sql_prompt_es,使用 Qwen/Qwen2.5-32B-Instruct-AWQ 模型进行翻译。
数据集特点
- 记录数量: 105,851 条(训练集 100,000 条,测试集 5,851 条)
- 总令牌数: ~23M(其中 ~12M 为 SQL 令牌)
- 领域覆盖: 100 个不同领域
- SQL任务类型: 数据定义、检索、操作、分析与报告
- SQL复杂度: 子查询、单连接、多连接、聚合、窗口函数、集合操作等
- 附加内容: 数据库上下文、SQL查询的自然语言解释、上下文标签
数据质量评估
- 评估方法: LLM-as-a-judge 技术
- 评估结果: 在 SQL 标准符合性、SQL 正确性、指令遵循等方面优于 b-mc2/sql-create-context 数据集
- SQL验证: 使用 sqlglot 和 sqlvalidator 验证 SQL 的可解析性和有效性
引用
bibtex @software{gretel-synthetic-text-to-sql-2024, author = {Meyer, Yev and Emadi, Marjan and Nathawani, Dhruv and Ramaswamy, Lipika and Boyd, Kendrick and Van Segbroeck, Maarten and Grossman, Matthew and Mlocek, Piotr and Newberry, Drew}, title = {{Synthetic-Text-To-SQL}: A synthetic dataset for training language models to generate SQL queries from natural language prompts}, month = {April}, year = {2024}, url = {https://huggingface.co/datasets/gretelai/synthetic-text-to-sql} }
搜集汇总
数据集介绍

构建方式
在自然语言处理与数据库交互领域,synthetic_text_to_sql_en_es数据集通过创新的合成方法构建而成。该数据集基于GretelAI的SyntheticSQL版本,采用Gretel Navigator技术生成高质量文本到SQL的样本,并通过Qwen2.5-32B-Instruct-AWQ模型进行少样本提示和思维链推理,将原始英文提示翻译为西班牙语,形成双语对照结构。构建过程严格遵循Apache 2.0协议,涵盖10万余条训练样本和5千余条测试样本,确保数据规模与多样性达到当前领域领先水平。
特点
作为目前最大规模的合成文本到SQL数据集,其显著特点体现在多维度的专业设计。数据集覆盖公共卫生等100个垂直领域,包含数据定义、检索、操作及分析报告等完整SQL任务类型,并精细标注查询复杂度等级。每个样本均提供自然语言提示、数据库上下文、SQL查询及解释说明四重信息,特别新增的西语翻译字段为跨语言研究提供可能。经SQL语法验证和LLM评判对比,其在SQL标准符合性、正确性等指标上显著优于同类数据集。
使用方法
该数据集适用于训练语言模型实现自然语言到SQL查询的转换任务。研究者可通过HuggingFace平台直接加载数据,利用预划分的训练测试集开发跨语言文本到SQL系统。典型使用场景包括:基于提示词和上下文字段微调大语言模型,通过SQL解释字段增强模型的可解释性,或借助复杂度标签进行分层性能评估。数据集的西班牙语扩展支持双语对比实验,为探究语言特性对查询生成的影响提供独特资源。使用时需注意遵循Apache 2.0许可要求,并引用原始作者的技术报告。
背景与挑战
背景概述
synthetic_text_to_sql_en_es数据集由GretelAI团队于2024年4月发布,是目前规模最大、多样性最丰富的合成Text-to-SQL数据集。该数据集基于Gretel Navigator技术构建,覆盖100个不同领域,包含10.5万条训练样本和5851条测试样本,涵盖数据定义、检索、操作、分析与报告等多种SQL任务类型。作为首个支持英语和西班牙语双语的Text-to-SQL资源,其通过few-shot prompting结合Qwen大模型实现了高质量的语种扩展,为跨语言数据库交互系统提供了重要基准。该数据集显著提升了SQL标准符合率(+54.6%)和语法正确性(+34.5%),已成为语义解析和自然语言接口领域的关键研究基础设施。
当前挑战
在领域问题层面,该数据集致力于解决多语言环境下自然语言到结构化查询的转换难题,特别是处理西班牙语复杂句式与数据库术语的映射关系。构建过程中面临三重核心挑战:跨语言语义对齐要求精确保持原英文提示的查询意图,需克服语言间语法结构差异导致的SQL生成偏差;SQL复杂度控制涉及23种操作类型的平衡分布,包括子查询、多表连接等高级特性;数据质量验证环节采用LLM-as-a-judge评估框架,需确保10万级样本在语法有效性、逻辑一致性方面的严格标准。此外,数据库上下文与生成SQL的语义耦合度验证,以及不同领域术语体系的准确嵌入,均为数据集构建的关键技术瓶颈。
常用场景
经典使用场景
在自然语言处理与数据库交互领域,synthetic_text_to_sql_en_es数据集为跨语言文本到SQL转换任务提供了标准化基准。该数据集通过覆盖100个垂直领域的10万条训练样本,支持研究者系统评估模型在医疗、金融等复杂场景下,将英语或西班牙语的自然语言查询转化为符合语法规范的SQL语句的能力。其多粒度复杂度标注与任务类型分类,使得该数据集成为测试模型处理聚合函数、多表连接等高级SQL特性的理想工具。
实际应用
在商业智能系统中,该数据集训练的模型可自动将西班牙语市场分析需求转化为数据库查询,显著降低跨国企业的数据分析门槛。医疗领域应用案例显示,通过解析医生用西班牙语描述的临床指标需求,系统能自动生成符合HIPAA标准的统计报表SQL。教育科技公司利用该数据集开发的双语SQL教学助手,已实现英语/西班牙语查询语句的实时互译与可视化解释。
衍生相关工作
基于该数据集衍生的Gretel Navigator框架革新了合成数据的生成范式,其提出的上下文感知生成策略被后续研究广泛采用。在ACL 2024会议中,多篇论文引用该数据集验证了跨语言SQL生成模型X-SQL的性能突破。西班牙语扩展版本更催生了IberLEF 2024评测任务,推动拉丁美洲地区文本到SQL技术的研究热潮。Meta最新发布的Llama-3-SQL模型亦将该数据集作为核心训练资源。
以上内容由遇见数据集搜集并总结生成



