RaffaSch121/fixed_spider
收藏Cleaned Spider Dataset for Text2SQL
数据集概述
Cleaned Spider Dataset for Text2SQL 是原始 Spider 数据集的改进版本,原始 Spider 数据集是一个大规模、复杂且跨域的语义解析和文本到 SQL 数据集。这个增强版本解决了原始数据集中发现的几个关键问题,确保了用于训练文本到 SQL 模型的高质量和可靠性。增强版本通过 Turbulars 的高级数据处理能力和内部通用数据库连接器实现。
支持的任务和排行榜
原始 Spider 数据集的排行榜可以在 Spider Leaderboard 查看。增强数据集与相同的任务兼容,并且由于其质量的提高,可以用于实现更好的性能。
语言
数据集中的文本为英语。
数据集结构
数据实例
数据集中的每个实例代表一个自然语言问题及其等效的 SQL 查询。
数据字段
db_id: 数据库名称question: 需要解释为 SQL 的自然语言问题query: 目标 SQL 查询query_toks: 查询的标记列表query_toks_no_value: 不带值的查询标记列表question_toks: 问题的标记列表
数据集创建
策划理由
基于我们在训练 Text2SQL 模型方面的经验,Cleaned Spider Dataset for Text2SQL 是为了解决原始 Spider 数据集中的以下问题而创建的:
- 大小写差异:规范化数据库布局以及查询中引用的列和表。
- 不存在的表:删除引用不存在的表的查询。
- 缺少模式:随机为每个数据库布局引入 1-3 个模式,并相应更新受影响的查询。
源数据
数据集基于原始 Spider 数据集,该数据集由 11 名耶鲁大学学生标注。
标注
原始数据集由耶鲁大学的学生标注。增强工作由 Turbulars 内部团队使用他们的通用数据库连接器完成。
个人和敏感信息
该数据集中不包含个人或敏感信息。
使用数据的注意事项
数据集的社会影响
提高文本到 SQL 数据集的质量可以显著增强自然语言界面到数据库的开发,使数据查询更加易于访问和高效。此外,还能促进数据洞察的民主化。
偏见讨论
数据集继承了原始 Spider 数据集中的任何偏见。
其他已知限制
虽然增强版本解决了几个关键问题,但用户仍应注意自动化数据集处理的内有限制。
附加信息
数据集策展人
原始 Spider 数据集由耶鲁大学的一个研究团队策展。增强工作由 Turbular 团队完成。
引用信息
如果您使用此数据集,请引用原始 Spider 数据集:
bibtex @inproceedings{yu-etal-2018-spider, title = "{S}pider: A Large-Scale Human-Labeled Dataset for Complex and Cross-Domain Semantic Parsing and Text-to-{SQL} Task", author = "Yu, Tao and Zhang, Rui and Yang, Kai and Yasunaga, Michihiro and Wang, Dongxu and Li, Zifan and Ma, James and Li, Irene and Yao, Qingning and Roman, Shanelle and Zhang, Zilin and Radev, Dragomir", editor = "Riloff, Ellen and Chiang, David and Hockenmaier, Julia and Tsujii, Jun{}ichi", booktitle = "Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing", month = oct # "-" # nov, year = "2018", address = "Brussels, Belgium", publisher = "Association for Computational Linguistics", url = "https://aclanthology.org/D18-1425", doi = "10.18653/v1/D18-1425", pages = "3911--3921", archivePrefix={arXiv}, eprint={1809.08887}, primaryClass={cs.CL}, }
贡献
感谢 Turbular 团队的其他成员对数据集进行增强并确保其质量。特别感谢 @olinguyen 添加原始数据集。更多关于我们工作的信息,请访问 www.turbular.com。




