ravidborse/minispider
收藏Hugging Face2023-08-25 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/ravidborse/minispider
下载链接
链接失效反馈官方服务:
资源简介:
Spider是一个大规模、复杂且跨领域的语义解析和文本到SQL数据集,由11名耶鲁大学的学生注释。该数据集的目标是开发跨领域数据库的自然语言接口。数据集包含自然语言问题和相应的SQL查询,文本为英文,数据集规模在1K到10K之间。
提供机构:
ravidborse
原始信息汇总
数据集概述
数据集描述
数据集摘要
Spider是一个大规模的复杂跨域语义解析和文本到SQL数据集,由耶鲁大学的11名学生标注。该数据集的目标是开发跨域数据库的自然语言接口。
支持的任务和排行榜
该数据集支持文本到SQL生成的任务,排行榜可以在这里查看。
语言
数据集中的文本为英语。
数据集结构
数据实例
每个实例代表一个自然语言问题及其对应的SQL查询。
数据字段
- db_id: 数据库名称
- question: 自然语言问题
- query: 目标SQL查询
- query_toks: 查询的标记列表
- query_toks_no_value: 查询的标记列表(无值)
- question_toks: 问题的标记列表
数据分割
- train: 包含7000个问题和SQL查询对
- dev: 包含1034个问题和SQL查询对
数据集创建
标注
数据集由耶鲁大学的11名学生标注。
使用数据的注意事项
社会影响
[更多信息需要]
偏见讨论
[更多信息需要]
其他已知限制
[更多信息需要]
附加信息
数据集许可
该数据集基于CC BY-SA 4.0许可。
引用信息
@article{yu2018spider, title={Spider: A large-scale human-labeled dataset for complex and cross-domain semantic parsing and text-to-sql task}, author={Yu, Tao and Zhang, Rui and Yang, Kai and Yasunaga, Michihiro and Wang, Dongxu and Li, Zifan and Ma, James and Li, Irene and Yao, Qingning and Roman, Shanelle and others}, journal={arXiv preprint arXiv:1809.08887}, year={2018} }



