aherntech/spider-realistic|自然语言处理数据集|文本到SQL转换数据集
收藏数据集卡片 for Spider-Releastic
概述
- 许可证: CC BY-SA 4.0
- 任务类别: text2text-generation
- 语言: en
- 标签: text-to-sql
- 数据集名称: Spider-Releastic
- 数据集大小: n<1K
数据集描述
- 来源: 该数据集是基于Spider数据集(2020-06-07版本)的dev split创建的。
- 修改内容: 原始问题中的列名被移除,但SQL查询保持不变,以更好地评估模型在自然语言表述和数据库模式对齐方面的能力。
- 原始数据集: Spider数据集的SQL查询和数据库保持不变。
- 官方数据库文件: 请参考Spider发布站点。
- 数据集来源: 该数据集从Zenodo复制。
相关论文
-
标题: Structure-Grounded Pretraining for Text-to-SQL
-
作者: Deng, Xiang 等
-
摘要: 本文介绍了一种新的弱监督结构化预训练框架(StruG),用于文本到SQL的任务,该框架能够基于并行文本-表格语料库有效地学习文本-表格对齐。
-
引用信息:
@article{deng2020structure, title={Structure-Grounded Pretraining for Text-to-SQL}, author={Deng, Xiang and Awadallah, Ahmed Hassan and Meek, Christopher and Polozov, Oleksandr and Sun, Huan and Richardson, Matthew}, journal={arXiv preprint arXiv:2010.12773}, year={2020} }
原始Spider数据集引用
-
标题: Spider: A Large-Scale Human-Labeled Dataset for Complex and Cross-Domain Semantic Parsing and Text-to-SQL Task
-
作者: Tao Yu 等
-
引用信息:
@inproceedings{Yu&al.18c, year = 2018, title = {Spider: A Large-Scale Human-Labeled Dataset for Complex and Cross-Domain Semantic Parsing and Text-to-SQL Task}, booktitle = {EMNLP}, author = {Tao Yu and Rui Zhang and Kai Yang and Michihiro Yasunaga and Dongxu Wang and Zifan Li and James Ma and Irene Li and Qingning Yao and Shanelle Roman and Zilin Zhang and Dragomir Radev} }

