five

Text-2-SQL-Arabic

收藏
Hugging Face2025-08-23 更新2025-08-24 收录
下载链接:
https://huggingface.co/datasets/AceMB/Text-2-SQL-Arabic
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个用于Text-to-SQL任务的数据集,包含自然语言查询和对应的SQL语句,根据SQL查询的复杂度进行了组织。数据集是gretelai/synthetic_text_to_sql数据集的翻译和扩展版本,包含从简单到高级的SQL查询,并从英语查询逐步过渡到阿拉伯语查询。共有20,000个样本,分布在不同的SQL复杂度级别中。

This is a dataset for the Text-to-SQL task, which contains natural language queries and their corresponding SQL statements, organized by the complexity of SQL queries. It is a translated and extended version of the gretelai/synthetic_text_to_sql dataset, covering SQL queries ranging from simple to advanced levels, with a gradual transition from English queries to Arabic queries. The dataset includes a total of 20,000 samples distributed across different SQL complexity tiers.
创建时间:
2025-08-22
原始信息汇总

数据集概述

基本信息

  • 名称: Text-2-SQL-Arabic
  • 许可证: CC-BY-4.0
  • 类型: 文本到SQL任务数据集
  • 来源: 基于gretelai/synthetic_text_to_sql数据集的翻译和扩展版本

数据集设计

  • 设计目标: 支持自然语言查询与SQL语句的配对,按SQL复杂度组织
  • 平滑处理: 覆盖两个主要维度
    • 复杂度: 从简单到高级SQL查询
    • 语言: 从英语查询逐步过渡到阿拉伯语查询
  • 训练偏向: 模型偏向阿拉伯语查询处理能力
  • 能力要求: 同时具备处理递增SQL复杂度的能力

数据分布

按SQL复杂度分类的样本数量分布:

复杂度等级 样本量
基础SQL 5,000
聚合操作 3,400
子查询 2,200
单连接 4,000
窗口函数 1,600
多连接 2,400
集合操作 1,000
公共表表达式(CTE) 400

总样本量: 20,000

搜集汇总
数据集介绍
main_image_url
构建方式
在自然语言处理领域,跨语言文本到SQL转换任务对数据集构建提出特殊要求。本数据集基于gretelai/synthetic_text_to_sql进行翻译扩展,采用双维度平滑策略:按SQL复杂度从基础查询到高级特性分层,同时沿语言轴线从英语查询渐进过渡至阿拉伯语查询,最终形成包含2万条样本的多层次语料库。
特点
该数据集最显著的特征在于其结构化分布体系,不仅涵盖基础SQL操作,更深入聚合运算、子查询、连接操作及窗口函数等八大复杂度层级。阿拉伯语查询的优先偏向性设计,使模型在掌握复杂SQL语义的同时,能有效适应阿拉伯语的语言特性,为跨语言语义解析研究提供独特价值。
使用方法
研究者可依据SQL复杂度分级开展渐进式训练,首先从基础SQL层级入手,逐步引入连接操作和聚合查询等高阶内容。针对阿拉伯语自然语言处理任务,建议采用跨语言迁移学习框架,利用英语查询数据预热模型,再通过阿拉伯语样本进行微调,以实现最优的跨语言语义转换效果。
背景与挑战
背景概述
自然语言到结构化查询语言转换技术作为自然语言处理与数据库交互的核心领域,自2017年WikiSQL数据集发布以来持续受到学术界与工业界关注。Text-2-SQL-Arabic数据集由研究团队基于gretelai/synthetic_text_to_sql数据集进行翻译与扩展构建,专注于提升阿拉伯语场景下的语义解析能力。该数据集通过系统化组织不同复杂度的SQL语句与对应自然语言问句,旨在推动跨语言文本到SQL转换模型的发展,特别针对阿拉伯语这类形态丰富且语序灵活的语言特性进行优化设计。
当前挑战
阿拉伯语文本到SQL转换面临双重挑战:在领域问题层面,阿拉伯语的复杂形态变化、自由语序特性以及方言变体对语义准确解析构成显著障碍,需解决词汇语义消歧与语法结构映射问题;在构建过程中,需要克服英语SQL模式到阿拉伯语的自然语言问句高质量翻译难题,确保查询意图保持与SQL逻辑的一致性,同时还需维持不同复杂度SQL语句的平衡分布以支持模型渐进式学习。
常用场景
经典使用场景
在自然语言处理与数据库交互领域,Text-2-SQL-Arabic数据集为阿拉伯语文本到SQL查询的转换任务提供了标准化评估基准。该数据集通过覆盖从基础查询到窗口函数、公共表表达式等复杂结构的SQL语句,系统性地支持模型在不同复杂度层级上的性能验证。研究者通常利用其层次化结构训练端到端的语义解析模型,显著提升阿拉伯语场景下的结构化数据访问能力。
解决学术问题
该数据集有效解决了阿拉伯语自然语言处理中语义解析资源匮乏的核心问题,为跨语言Text-to-SQL研究提供了关键基础设施。通过平衡语言分布与SQL复杂度,它支持模型泛化能力研究,缓解了传统方法对英语语料的过度依赖。其构建方法论为低资源语言处理任务提供了可复用的范式,推动了语义解析领域的语言多样性发展。
衍生相关工作
基于该数据集衍生的经典工作包括跨语言序列到序列模型架构的改进,如集成语法约束的解码策略和对抗训练方法。多项研究利用其层次化特性开发了复杂度感知的评估指标,推动了Text-to-SQL任务中细粒度性能分析范式的发展。这些工作共同促进了阿拉伯语NLP技术生态的完善。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作