dreamerdeo/multispider
收藏Hugging Face2024-07-12 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/dreamerdeo/multispider
下载链接
链接失效反馈官方服务:
资源简介:
MultiSpider是一个多语言文本到SQL的语义解析数据集,涵盖了七种语言(英语、德语、法语、西班牙语、日语、中文和越南语)。数据集有两个版本:`with_English_value`和`with_original_value`,其中`with_English_value`版本用于避免问题和数据库中的实体之间的不一致性。
MultiSpider is a multilingual text-to-SQL semantic parsing dataset covering seven languages: English, German, French, Spanish, Japanese, Chinese, and Vietnamese. The dataset has two variants: `with_English_value` and `with_original_value`, where the `with_English_value` version is designed to avoid inconsistencies between natural language questions and entities in the databases.
提供机构:
dreamerdeo
原始信息汇总
MultiSpider 数据集概述
数据集描述
MultiSpider 是一个多语言文本到SQL语义解析数据集,涵盖七种语言:英语、德语、法语、西班牙语、日语、中文和越南语。
数据集版本
MultiSpider 数据集提供两个版本:
with_English_value:用于避免问题中的实体与数据库中的值之间的差异。with_original_value:数据集创建过程中的副产品,可能适用于更深入的本地化数据集研究。
数据集示例
with_English_value:Führen Sie die Namen der Sängerinnen und Sänger auf, deren Staatsbürgerschaft nicht „France“ lautet.with_original_value:Führen Sie die Namen der Sängerinnen und Sänger auf, deren Staatsbürgerschaft nicht "Frankreich" lautet.
数据集结果
| 模型 | EN | DE | ES | FR | JA | ZH | VI |
|---|---|---|---|---|---|---|---|
| 论文报告 | 68.8 | 64.8 | 67.4 | 65.3 | 60.2 | 66.1 | 67.1 |
| 发布模型 | 69.5 | 65.1 | 68.1 | 66.7 | 60.9 | 67.4 | 69.1 |
许可证
数据集的源代码版权遵循 Creative Commons - Attribution-NonCommercial 4.0 International 许可证(CC BY-NC 4.0),商业用途需要明确的许可。



