five

HusnaManakkot/haispider

收藏
Hugging Face2024-03-05 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/HusnaManakkot/haispider
下载链接
链接失效反馈
官方服务:
资源简介:
Spider是一个大规模、复杂且跨领域的语义解析和文本到SQL数据集,由11名耶鲁大学的学生注释。该数据集的目标是开发跨领域数据库的自然语言接口。数据集包含自然语言问题及其对应的SQL查询,主要用于文本到SQL的生成任务。数据集的语言为英语,包含7000个训练问题和1034个开发问题。

Spider是一个大规模、复杂且跨领域的语义解析和文本到SQL数据集,由11名耶鲁大学的学生注释。该数据集的目标是开发跨领域数据库的自然语言接口。数据集包含自然语言问题及其对应的SQL查询,主要用于文本到SQL的生成任务。数据集的语言为英语,包含7000个训练问题和1034个开发问题。
提供机构:
HusnaManakkot
原始信息汇总

数据集卡片 for Spider

数据集描述

  • 主页: https://yale-lily.github.io/spider
  • 仓库: https://github.com/taoyds/spider
  • 论文: https://www.aclweb.org/anthology/D18-1425/
  • 联系人: Yale LILY

数据集总结

Spider 是一个大规模复杂和跨领域的语义解析和文本到SQL数据集,由11名耶鲁大学学生标注。Spider挑战的目标是开发跨领域数据库的自然语言接口。

支持的任务和排行榜

  • 排行榜: https://yale-lily.github.io/spider

语言

数据集中的文本是英文。

数据集结构

数据实例

  • 实例代表: 每个实例是一个自然语言问题和相应的SQL查询。
  • 实例总数: [更多信息需要]
  • 每个实例包含的数据: [更多信息需要]

数据字段

  • db_id: 数据库名称
  • question: 自然语言问题
  • query: 目标SQL查询
  • query_toks: 查询的标记列表
  • query_toks_no_value: 查询的标记列表(无值)
  • question_toks: 问题的标记列表

数据分割

  • train: 7000个问题和SQL查询对
  • dev: 1034个问题和SQL查询对

数据集创建

策划理由

[更多信息需要]

源数据

  • 初始数据收集和规范化: [更多信息需要]
  • 源语言生产者: [更多信息需要]

标注

  • 标注者: 11名耶鲁大学学生
  • 标注过程: [更多信息需要]

个人和敏感信息

[更多信息需要]

数据使用考虑

  • 社会影响: [更多信息需要]
  • 偏见讨论: [更多信息需要]

其他已知限制

[更多信息需要]

附加信息

  • 数据集维护者: 主页上列出的作者

许可证信息

Spider 数据集在 CC BY-SA 4.0 许可证下发布。

引用信息

@article{yu2018spider, title={Spider: A large-scale human-labeled dataset for complex and cross-domain semantic parsing and text-to-sql task}, author={Yu, Tao and Zhang, Rui and Yang, Kai and Yasunaga, Michihiro and Wang, Dongxu and Li, Zifan and Ma, James and Li, Irene and Yao, Qingning and Roman, Shanelle and others}, journal={arXiv preprint arXiv:1809.08887}, year={2018} }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作