five

MultiSpider 2.0

收藏
arXiv2025-09-29 更新2025-10-01 收录
下载链接:
https://github.com/phkhanhtrinh23/Multilingual_Text_to_SQL
下载链接
链接失效反馈
官方服务:
资源简介:
MultiSpider 2.0是一个多语言文本到SQL的数据集,扩展了Spider 2.0,支持八种语言,包括英语、德语、法语、西班牙语、葡萄牙语、日语、中文和越南语。该数据集包含来自云市场的大型真实数据库,并具有跨域模式和组合SQL的难度。数据集由5056个NL-SQL对组成,涵盖200个企业数据库,覆盖8种语言。数据集旨在评估语言模型在多语言环境下的性能,并为文本到SQL任务提供基准。

MultiSpider 2.0 is a multilingual text-to-SQL dataset derived from Spider 2.0, supporting eight languages including English, German, French, Spanish, Portuguese, Japanese, Chinese, and Vietnamese. This dataset contains large-scale real-world databases sourced from cloud marketplaces, and features cross-domain schemas and compositional SQL query difficulty. It comprises 5,056 NL-SQL pairs, covering 200 enterprise-level databases across the eight supported languages. The dataset is designed to evaluate the performance of language models in multilingual settings, and serves as a benchmark for the text-to-SQL task.
提供机构:
澳大利亚格里菲斯大学
创建时间:
2025-09-29
原始信息汇总

Multilingual_Text_to_SQL 数据集概述

数据集简介

  • 小型多语言自然语言转SQL(text-to-SQL)问题数据集集合
  • 包含用于实验和评估的BigQuery数据库模式
  • 数据集状态标记为待更新(TO BE UPDATED)

数据集结构

数据库模式目录

  • 位置:https://github.com/phkhanhtrinh23/Multilingual_Text_to_SQL/databases/
  • 包含导出的BigQuery、Snowflake和SQLite模式
  • 提供多个公共数据集的JSON/DDL元数据
  • 包含描述性JSON元数据和可能的DDL.csv文件
  • 帮助识别表和列名称以进行SQL生成

问题文件目录

  • 位置:https://github.com/phkhanhtrinh23/Multilingual_Text_to_SQL/questions/
  • 采用JSONL格式的多语言问题文件
  • 每行包含单个JSON对象,描述自然语言查询和目标数据库
  • 包含实例ID和目标数据库名称

语言支持

  • 支持八种语言:英语(en)、德语(de)、西班牙语(es)、法语(fr)、日语(ja)、葡萄牙语(pt)、越南语(vi)、中文(zh)

主要用途

  • 聚合数据库表定义和样本,帮助将自然语言问题映射到模式元素
  • 提供用于训练/评估text-to-SQL系统的多语言问题集
  • 用于生成SQL模板或为解析器构建映射层

使用示例

  • 问题文件示例:https://github.com/phkhanhtrinh23/Multilingual_Text_to_SQL/questions/spider2-lite_vi.jsonl
搜集汇总
数据集介绍
main_image_url
构建方式
在数据库自然语言接口研究领域,MultiSpider 2.0通过系统化扩展Spider 2.0基准构建而成。该数据集精选自云市场真实企业数据库,严格遵循每库≥200列或嵌套模式的筛选标准,最终汇集了涵盖8种语言的5056组自然语言-SQL对。构建过程采用专业翻译团队与NLP研究者协作的多轮验证机制,包括双语对齐检查、本地化数据库快照构建、SQL可执行性验证等关键步骤,确保跨语言语义一致性与模式完整性。
特点
作为企业级多语言文本到SQL基准,MultiSpider 2.0展现出显著的复杂性特征。数据集延续了Spider 2.0的结构难度,44.15%任务属于中等复杂度,30.54%为高难度查询,同时引入语言与方言变体维度。其独特价值体现在对现代数据仓库语法的广泛覆盖,BigQuery、Snowflake和SQLite分别占比33.86%、31.33%和34.81%,有效模拟真实企业数据环境。这种多方言设计显著提升了模型对语法变体的鲁棒性测试要求。
使用方法
在评估实践中,MultiSpider 2.0支持三种典型应用范式。自包含文本到SQL框架将数据库模式、自然语言问题及辅助文档作为输入,通过预训练解析器生成可执行查询。LLM驱动查询精化范式则利用大语言模型内在推理能力,基于模式一致性、逻辑有效性和执行反馈进行迭代优化。协作语言代理方法通过分类器、分析器和校正器的模块化协作,实现复杂查询的分解执行与修正。评估采用精确匹配和执行准确率双重指标,确保对语义正确性与功能等价性的全面衡量。
背景与挑战
背景概述
MultiSpider 2.0 数据集于2025年由格里菲斯大学研究团队发布,作为多语言文本到SQL解析领域的重要基准,旨在解决现有基准如Spider 2.0局限于英语的问题。该数据集扩展至八种语言,涵盖英语、德语、法语、西班牙语、葡萄牙语、日语、中文和越南语,保留了企业级数据库的复杂结构,包括跨领域模式和组合式SQL查询。通过引入语言和方言变异,MultiSpider 2.0推动了多语言自然语言处理与数据库交互的研究,显著提升了模型在真实世界企业环境中的适用性和鲁棒性。
当前挑战
MultiSpider 2.0 面临的挑战主要集中于领域问题和构建过程。在领域方面,数据集旨在解决多语言文本到SQL解析的难题,包括处理复杂企业级数据库模式、多跳连接和嵌套查询,这要求模型具备深层次推理能力以应对语言多样性和结构复杂性。构建过程中,挑战涉及确保跨语言语义一致性和SQL可执行性,例如通过专业翻译团队和多轮验证流程处理上下文知识鸿沟、词汇歧义和结构复杂性,以避免模式链接错误和逻辑偏差。
常用场景
经典使用场景
在自然语言处理与数据库交互领域,MultiSpider 2.0数据集作为首个企业级多语言文本转SQL基准,广泛应用于评估语言模型在跨语言环境下的语义解析能力。其典型应用场景包括测试模型对复杂企业级数据库架构的适应性,涵盖多表连接、嵌套查询及多语言模式下的模式链接挑战,为研究多语言语义解析的鲁棒性提供了标准化平台。
解决学术问题
该数据集有效解决了传统文本转SQL研究中英语中心化导致的泛化能力不足问题,通过引入八种语言的语法变异与方言差异,揭示了语言模型在跨语言场景下的模式链接错误与结构推理缺陷。其贡献在于量化了多语言语义解析的性能鸿沟,推动了对语言无关的数据库查询方法的研究,为构建全球化企业级自然语言接口奠定了理论基础。
衍生相关工作
基于该数据集衍生的经典研究包括协作式语言代理框架COLA,其通过模块化代理协同实现SQL查询的迭代优化;同时催生了多语言模式链接增强方法如Dialect-Aware Normalization,以及结合执行反馈的强化学习策略,这些工作共同推动了多语言文本转SQL在复杂企业环境中的实用化进程。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作