five

ravidborse/minispider

收藏
Hugging Face2023-08-25 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/ravidborse/minispider
下载链接
链接失效反馈
官方服务:
资源简介:
Spider是一个大规模、复杂且跨领域的语义解析和文本到SQL数据集,由11名耶鲁大学的学生注释。该数据集的目标是开发跨领域数据库的自然语言接口。数据集包含自然语言问题和相应的SQL查询,文本为英文,数据集规模在1K到10K之间。
提供机构:
ravidborse
原始信息汇总

数据集概述

数据集描述

数据集摘要

Spider是一个大规模的复杂跨域语义解析和文本到SQL数据集,由耶鲁大学的11名学生标注。该数据集的目标是开发跨域数据库的自然语言接口。

支持的任务和排行榜

该数据集支持文本到SQL生成的任务,排行榜可以在这里查看。

语言

数据集中的文本为英语。

数据集结构

数据实例

每个实例代表一个自然语言问题及其对应的SQL查询。

数据字段

  • db_id: 数据库名称
  • question: 自然语言问题
  • query: 目标SQL查询
  • query_toks: 查询的标记列表
  • query_toks_no_value: 查询的标记列表(无值)
  • question_toks: 问题的标记列表

数据分割

  • train: 包含7000个问题和SQL查询对
  • dev: 包含1034个问题和SQL查询对

数据集创建

标注

数据集由耶鲁大学的11名学生标注。

使用数据的注意事项

社会影响

[更多信息需要]

偏见讨论

[更多信息需要]

其他已知限制

[更多信息需要]

附加信息

数据集许可

该数据集基于CC BY-SA 4.0许可。

引用信息

@article{yu2018spider, title={Spider: A large-scale human-labeled dataset for complex and cross-domain semantic parsing and text-to-sql task}, author={Yu, Tao and Zhang, Rui and Yang, Kai and Yasunaga, Michihiro and Wang, Dongxu and Li, Zifan and Ma, James and Li, Irene and Yao, Qingning and Roman, Shanelle and others}, journal={arXiv preprint arXiv:1809.08887}, year={2018} }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作