HusnaManakkot/haispider
收藏Hugging Face2024-03-05 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/HusnaManakkot/haispider
下载链接
链接失效反馈官方服务:
资源简介:
Spider是一个大规模、复杂且跨领域的语义解析和文本到SQL数据集,由11名耶鲁大学的学生注释。该数据集的目标是开发跨领域数据库的自然语言接口。数据集包含自然语言问题及其对应的SQL查询,主要用于文本到SQL的生成任务。数据集的语言为英语,包含7000个训练问题和1034个开发问题。
Spider是一个大规模、复杂且跨领域的语义解析和文本到SQL数据集,由11名耶鲁大学的学生注释。该数据集的目标是开发跨领域数据库的自然语言接口。数据集包含自然语言问题及其对应的SQL查询,主要用于文本到SQL的生成任务。数据集的语言为英语,包含7000个训练问题和1034个开发问题。
提供机构:
HusnaManakkot
原始信息汇总
数据集卡片 for Spider
数据集描述
- 主页: https://yale-lily.github.io/spider
- 仓库: https://github.com/taoyds/spider
- 论文: https://www.aclweb.org/anthology/D18-1425/
- 联系人: Yale LILY
数据集总结
Spider 是一个大规模复杂和跨领域的语义解析和文本到SQL数据集,由11名耶鲁大学学生标注。Spider挑战的目标是开发跨领域数据库的自然语言接口。
支持的任务和排行榜
- 排行榜: https://yale-lily.github.io/spider
语言
数据集中的文本是英文。
数据集结构
数据实例
- 实例代表: 每个实例是一个自然语言问题和相应的SQL查询。
- 实例总数: [更多信息需要]
- 每个实例包含的数据: [更多信息需要]
数据字段
db_id: 数据库名称question: 自然语言问题query: 目标SQL查询query_toks: 查询的标记列表query_toks_no_value: 查询的标记列表(无值)question_toks: 问题的标记列表
数据分割
train: 7000个问题和SQL查询对dev: 1034个问题和SQL查询对
数据集创建
策划理由
[更多信息需要]
源数据
- 初始数据收集和规范化: [更多信息需要]
- 源语言生产者: [更多信息需要]
标注
- 标注者: 11名耶鲁大学学生
- 标注过程: [更多信息需要]
个人和敏感信息
[更多信息需要]
数据使用考虑
- 社会影响: [更多信息需要]
- 偏见讨论: [更多信息需要]
其他已知限制
[更多信息需要]
附加信息
- 数据集维护者: 主页上列出的作者
许可证信息
Spider 数据集在 CC BY-SA 4.0 许可证下发布。
引用信息
@article{yu2018spider, title={Spider: A large-scale human-labeled dataset for complex and cross-domain semantic parsing and text-to-sql task}, author={Yu, Tao and Zhang, Rui and Yang, Kai and Yasunaga, Michihiro and Wang, Dongxu and Li, Zifan and Ma, James and Li, Irene and Yao, Qingning and Roman, Shanelle and others}, journal={arXiv preprint arXiv:1809.08887}, year={2018} }



