MultiSpider 2.0

Name: MultiSpider 2.0
Creator: 澳大利亚格里菲斯大学
Published: 2025-09-29 15:50:39
License: 暂无描述

arXiv2025-09-29 更新2025-10-01 收录

下载链接：

https://github.com/phkhanhtrinh23/Multilingual_Text_to_SQL

下载链接

链接失效反馈

官方服务：

资源简介：

MultiSpider 2.0是一个多语言文本到SQL的数据集，扩展了Spider 2.0，支持八种语言，包括英语、德语、法语、西班牙语、葡萄牙语、日语、中文和越南语。该数据集包含来自云市场的大型真实数据库，并具有跨域模式和组合SQL的难度。数据集由5056个NL-SQL对组成，涵盖200个企业数据库，覆盖8种语言。数据集旨在评估语言模型在多语言环境下的性能，并为文本到SQL任务提供基准。

MultiSpider 2.0 is a multilingual text-to-SQL dataset derived from Spider 2.0, supporting eight languages including English, German, French, Spanish, Portuguese, Japanese, Chinese, and Vietnamese. This dataset contains large-scale real-world databases sourced from cloud marketplaces, and features cross-domain schemas and compositional SQL query difficulty. It comprises 5,056 NL-SQL pairs, covering 200 enterprise-level databases across the eight supported languages. The dataset is designed to evaluate the performance of language models in multilingual settings, and serves as a benchmark for the text-to-SQL task.

提供机构：

澳大利亚格里菲斯大学

创建时间：

2025-09-29

原始信息汇总

Multilingual_Text_to_SQL 数据集概述

数据集简介

小型多语言自然语言转SQL（text-to-SQL）问题数据集集合
包含用于实验和评估的BigQuery数据库模式
数据集状态标记为待更新（TO BE UPDATED）

数据集结构

数据库模式目录

位置：https://github.com/phkhanhtrinh23/Multilingual_Text_to_SQL/databases/
包含导出的BigQuery、Snowflake和SQLite模式
提供多个公共数据集的JSON/DDL元数据
包含描述性JSON元数据和可能的DDL.csv文件
帮助识别表和列名称以进行SQL生成

问题文件目录

位置：https://github.com/phkhanhtrinh23/Multilingual_Text_to_SQL/questions/
采用JSONL格式的多语言问题文件
每行包含单个JSON对象，描述自然语言查询和目标数据库
包含实例ID和目标数据库名称

语言支持

支持八种语言：英语（en）、德语（de）、西班牙语（es）、法语（fr）、日语（ja）、葡萄牙语（pt）、越南语（vi）、中文（zh）

主要用途

聚合数据库表定义和样本，帮助将自然语言问题映射到模式元素
提供用于训练/评估text-to-SQL系统的多语言问题集
用于生成SQL模板或为解析器构建映射层

使用示例

问题文件示例：https://github.com/phkhanhtrinh23/Multilingual_Text_to_SQL/questions/spider2-lite_vi.jsonl

搜集汇总

数据集介绍

构建方式

在数据库自然语言接口研究领域，MultiSpider 2.0通过系统化扩展Spider 2.0基准构建而成。该数据集精选自云市场真实企业数据库，严格遵循每库≥200列或嵌套模式的筛选标准，最终汇集了涵盖8种语言的5056组自然语言-SQL对。构建过程采用专业翻译团队与NLP研究者协作的多轮验证机制，包括双语对齐检查、本地化数据库快照构建、SQL可执行性验证等关键步骤，确保跨语言语义一致性与模式完整性。

特点

作为企业级多语言文本到SQL基准，MultiSpider 2.0展现出显著的复杂性特征。数据集延续了Spider 2.0的结构难度，44.15%任务属于中等复杂度，30.54%为高难度查询，同时引入语言与方言变体维度。其独特价值体现在对现代数据仓库语法的广泛覆盖，BigQuery、Snowflake和SQLite分别占比33.86%、31.33%和34.81%，有效模拟真实企业数据环境。这种多方言设计显著提升了模型对语法变体的鲁棒性测试要求。

使用方法

在评估实践中，MultiSpider 2.0支持三种典型应用范式。自包含文本到SQL框架将数据库模式、自然语言问题及辅助文档作为输入，通过预训练解析器生成可执行查询。LLM驱动查询精化范式则利用大语言模型内在推理能力，基于模式一致性、逻辑有效性和执行反馈进行迭代优化。协作语言代理方法通过分类器、分析器和校正器的模块化协作，实现复杂查询的分解执行与修正。评估采用精确匹配和执行准确率双重指标，确保对语义正确性与功能等价性的全面衡量。

背景与挑战

背景概述

MultiSpider 2.0 数据集于2025年由格里菲斯大学研究团队发布，作为多语言文本到SQL解析领域的重要基准，旨在解决现有基准如Spider 2.0局限于英语的问题。该数据集扩展至八种语言，涵盖英语、德语、法语、西班牙语、葡萄牙语、日语、中文和越南语，保留了企业级数据库的复杂结构，包括跨领域模式和组合式SQL查询。通过引入语言和方言变异，MultiSpider 2.0推动了多语言自然语言处理与数据库交互的研究，显著提升了模型在真实世界企业环境中的适用性和鲁棒性。

当前挑战

MultiSpider 2.0 面临的挑战主要集中于领域问题和构建过程。在领域方面，数据集旨在解决多语言文本到SQL解析的难题，包括处理复杂企业级数据库模式、多跳连接和嵌套查询，这要求模型具备深层次推理能力以应对语言多样性和结构复杂性。构建过程中，挑战涉及确保跨语言语义一致性和SQL可执行性，例如通过专业翻译团队和多轮验证流程处理上下文知识鸿沟、词汇歧义和结构复杂性，以避免模式链接错误和逻辑偏差。

常用场景

经典使用场景

在自然语言处理与数据库交互领域，MultiSpider 2.0数据集作为首个企业级多语言文本转SQL基准，广泛应用于评估语言模型在跨语言环境下的语义解析能力。其典型应用场景包括测试模型对复杂企业级数据库架构的适应性，涵盖多表连接、嵌套查询及多语言模式下的模式链接挑战，为研究多语言语义解析的鲁棒性提供了标准化平台。

解决学术问题

该数据集有效解决了传统文本转SQL研究中英语中心化导致的泛化能力不足问题，通过引入八种语言的语法变异与方言差异，揭示了语言模型在跨语言场景下的模式链接错误与结构推理缺陷。其贡献在于量化了多语言语义解析的性能鸿沟，推动了对语言无关的数据库查询方法的研究，为构建全球化企业级自然语言接口奠定了理论基础。

衍生相关工作

基于该数据集衍生的经典研究包括协作式语言代理框架COLA，其通过模块化代理协同实现SQL查询的迭代优化；同时催生了多语言模式链接增强方法如Dialect-Aware Normalization，以及结合执行反馈的强化学习策略，这些工作共同推动了多语言文本转SQL在复杂企业环境中的实用化进程。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集