five

richardr1126/spider-natsql-context-validation

收藏
Hugging Face2023-07-06 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/richardr1126/spider-natsql-context-validation
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是基于Spider数据集创建的,用于验证LLMs在Spider开发数据集上的表现,并使用了NatSQL。Spider是一个大规模、复杂且跨领域的语义解析和文本到SQL数据集,由11名耶鲁学生标注。NatSQL是一种SQL的中间表示形式,它简化了查询并减少了自然语言与SQL之间的不匹配。NatSQL保留了SQL的核心功能,但删除了一些难以从自然语言描述中推断的条款和关键字,同时通过减少需要预测的模式项数量,使模式链接更容易。NatSQL可以轻松转换为可执行的SQL查询,并可以提高文本到SQL模型的性能。

该数据集是基于Spider数据集创建的,用于验证LLMs在Spider开发数据集上的表现,并使用了NatSQL。Spider是一个大规模、复杂且跨领域的语义解析和文本到SQL数据集,由11名耶鲁学生标注。NatSQL是一种SQL的中间表示形式,它简化了查询并减少了自然语言与SQL之间的不匹配。NatSQL保留了SQL的核心功能,但删除了一些难以从自然语言描述中推断的条款和关键字,同时通过减少需要预测的模式项数量,使模式链接更容易。NatSQL可以轻松转换为可执行的SQL查询,并可以提高文本到SQL模型的性能。
提供机构:
richardr1126
原始信息汇总

数据集概述

数据集名称

Spider NatSQL Context Validation

数据集摘要

Spider是一个大规模、复杂且跨领域的语义解析和文本到SQL的数据集,由11名耶鲁大学学生标注。该数据集旨在验证大型语言模型在Spider开发数据集上使用NatSQL进行数据库上下文验证的能力。

数据集特征

  • db_id: 数据类型为字符串
  • prompt: 数据类型为字符串
  • ground_truth: 数据类型为字符串

语言

数据集中的文本语言为英语

许可证

数据集遵循CC BY-SA 4.0许可证

引用信息

@article{yu2018spider, title={Spider: A large-scale human-labeled dataset for complex and cross-domain semantic parsing and text-to-sql task}, author={Yu, Tao and Zhang, Rui and Yang, Kai and Yasunaga, Michihiro and Wang, Dongxu and Li, Zifan and Ma, James and Li, Irene and Yao, Qingning and Roman, Shanelle and others}, journal={arXiv preprint arXiv:1809.08887}, year={2018} }

@inproceedings{gan-etal-2021-natural-sql, title = "Natural {SQL}: Making {SQL} Easier to Infer from Natural Language Specifications", author = "Gan, Yujian and Chen, Xinyun and Xie, Jinxia and Purver, Matthew and Woodward, John R. and Drake, John and Zhang, Qiaofu", booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2021", month = nov, year = "2021", address = "Punta Cana, Dominican Republic", publisher = "Association for Computational Linguistics", url = "https://aclanthology.org/2021.findings-emnlp.174", doi = "10.18653/v1/2021.findings-emnlp.174", pages = "2030--2042", }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作