Dialect2SQL

Name: Dialect2SQL
Creator: 穆罕默德六世理工大学, 本格里尔, 摩洛哥; 法赫德国王石油矿产大学, 沙特阿拉伯
Published: 2025-01-20 22:06:40
License: 暂无描述

arXiv2025-01-20 更新2025-02-25 收录

下载链接：

http://arxiv.org/abs/2501.11498v1

下载链接

链接失效反馈

官方服务：

资源简介：

Dialect2SQL是由穆罕默德六世理工大学和法赫德国王石油矿产大学的研究团队创建的首个针对摩洛哥方言的大规模跨领域文本到SQL数据集。该数据集包含9428个自然语言问题与SQL查询对，覆盖69个不同领域的数据库，涉及食品、书籍、教育、交通、犯罪等多个领域。数据集的创建过程包括使用GPT-4进行自动翻译，并由母语为摩洛哥方言的计算机科学学生进行人工校对，以确保翻译质量。该数据集旨在解决低资源语言在文本到SQL任务中的挑战，特别是摩洛哥方言的复杂性，如多样的词汇来源、借词和独特的表达方式。Dialect2SQL的应用领域包括自然语言处理、数据库查询生成以及低资源语言的研究与开发。

提供机构：

穆罕默德六世理工大学, 本格里尔, 摩洛哥; 法赫德国王石油矿产大学, 沙特阿拉伯

创建时间：

2025-01-20

搜集汇总

数据集介绍

构建方式

Dialect2SQL数据集的构建方法是首先选择已知的大型跨域文本到SQL数据集BIRD，然后使用GPT-4进行自动翻译，将BIRD中的英文问题翻译成摩洛哥方言（Darija）。之后，由三位计算机科学专业的学生和一位博士研究生，他们对自动翻译的结果进行人工编辑和校对，确保翻译的准确性和符合摩洛哥方言的语言习惯。数据集包含数据库标识符、英文问题、翻译成摩洛哥方言的问题、相关SQL查询以及数据库模式等信息。

特点

Dialect2SQL数据集的特点包括：1）它是第一个针对阿拉伯方言的大型跨域文本到SQL数据集；2）数据集包含了9,428个自然语言问题到SQL查询对，跨越69个不同领域的数据库；3）数据集涵盖了SQL相关挑战，如长模式、脏值和复杂查询；4）数据集融入了摩洛哥方言的语言复杂性，包括多样的来源语言、众多的借词和独特的表达方式。

使用方法

使用Dialect2SQL数据集的方法包括：1）作为训练资源，用于训练能够理解和执行文本到SQL任务的人工智能模型；2）作为评估资源，用于评估和比较不同模型在摩洛哥方言上的性能；3）作为研究工具，用于探索阿拉伯方言在自然语言处理任务中的挑战和解决方案。

背景与挑战

背景概述

Dialect2SQL是一个针对阿拉伯方言的大型跨领域文本到SQL数据集，由Salmane Chafik、Saad Ezzini和Ismail Berrada等人于2023年创建。该数据集专注于摩洛哥方言Darija，包含9,428对自然语言问题与SQL查询，跨越69个不同领域的数据库。Dialect2SQL的构建旨在推动低资源语言文本到SQL任务的发展，并为低资源语言提供更多支持。

当前挑战

该数据集在构建过程中面临的主要挑战包括：1) 处理摩洛哥方言Darija的复杂性，该方言以其多样的源语言、众多的借词和独特的表达方式而闻名，为自然语言处理任务带来困难；2) 构建过程中需要解决SQL相关的挑战，如长模式、脏值和复杂查询；3) 自动翻译与手动翻译之间的差异，确保数据集的质量和可用性。

常用场景

经典使用场景

Dialect2SQL 数据集的经典使用场景在于，它为研究人员和开发者提供了一个大规模的、跨领域的阿拉伯方言（摩洛哥方言）到 SQL 的映射实例集合。该数据集特别适用于训练和评估自然语言处理模型，以理解和生成针对结构化数据库的查询语句。在实际应用中，模型可以基于 Dialect2SQL 数据集，理解和处理用户用摩洛哥方言提出的问题，并生成相应的 SQL 查询语句，从而实现对数据库的交互。

实际应用

在实际应用中，Dialect2SQL 数据集可以被用来开发面向摩洛哥方言用户的数据库查询接口。例如，在医疗、金融、教育等领域，通过使用基于 Dialect2SQL 训练的模型，可以使得不懂 SQL 的用户也能够通过自然语言提问来获取数据库中的信息，极大地提高了数据获取的便捷性和效率。

衍生相关工作

Dialect2SQL 数据集的发布促进了相关领域的研究工作，如阿拉伯方言的自然语言处理、跨语言文本到 SQL 的转换等。它不仅激发了更多针对低资源语言的研究，也为多语言文本到 SQL 的模型开发提供了数据支持和启示。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集