HusnaManakkot/new-spider-HM
收藏数据集卡片 for Spider
数据集描述
数据集摘要
Spider 是一个大规模复杂和跨领域的语义解析和文本到 SQL 数据集,由 11 名耶鲁大学学生标注。Spider 挑战的目标是开发跨领域数据库的自然语言接口。
支持的任务和排行榜
排行榜可以在 这里 查看。
语言
数据集中的文本为英语。
数据集结构
数据实例
数据实例代表什么?
每个实例是一个自然语言问题及其对应的 SQL 查询。
总共有多少实例?
[更多信息需要]
每个实例包含哪些数据?
[更多信息需要]
数据字段
- db_id: 数据库名称
- question: 需要解析为 SQL 的自然语言
- query: 目标 SQL 查询
- query_toks: 查询的标记列表
- query_toks_no_value: 查询的标记列表
- question_toks: 问题的标记列表
数据分割
train: 7000 个问题和 SQL 查询对 dev: 1034 个问题和 SQL 查询对
[更多信息需要]
数据集创建
策划理由
[更多信息需要]
源数据
初始数据收集和规范化
源语言生产者是谁?
[更多信息需要]
标注
数据集由 11 名耶鲁大学学生标注。
标注过程
标注者是谁?
个人和敏感信息
[更多信息需要]
使用数据的注意事项
数据集的社会影响
偏见的讨论
[更多信息需要]
其他已知限制
附加信息
数据集策展人
[更多信息需要]
许可信息
Spider 数据集在 CC BY-SA 4.0 许可下发布。
[更多信息需要]
引用信息
@article{yu2018spider, title={Spider: A large-scale human-labeled dataset for complex and cross-domain semantic parsing and text-to-sql task}, author={Yu, Tao and Zhang, Rui and Yang, Kai and Yasunaga, Michihiro and Wang, Dongxu and Li, Zifan and Ma, James and Li, Irene and Yao, Qingning and Roman, Shanelle and others}, journal={arXiv preprint arXiv:1809.08887}, year={2018} }
贡献
感谢 @olinguyen 添加此数据集。



