five

amitdanin/s3_spyder

收藏
Hugging Face2023-02-02 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/amitdanin/s3_spyder
下载链接
链接失效反馈
官方服务:
资源简介:
Spider数据集是一个大规模、复杂且跨领域的语义解析和文本到SQL的数据集,由11名耶鲁大学的学生标注。该数据集的目的是开发跨领域数据库的自然语言接口。数据集包含自然语言问题和相应的SQL查询,数据字段包括数据库名称、自然语言问题、目标SQL查询以及查询和问题的令牌列表。数据集分为训练集和验证集,分别包含7000和1034个问题和SQL查询对。数据集的文本为英文,采用CC BY-SA 4.0许可证。
提供机构:
amitdanin
原始信息汇总

数据集概述

数据集名称

  • 名称: Spider
  • 别名: 无

数据集基本信息

  • 语言: 英语
  • 许可证: CC-BY-4.0
  • 多语言性: 单语种
  • 大小类别: 1K<n<10K
  • 源数据集: 原始数据
  • 任务类别: 文本到文本生成
  • 任务ID: 无
  • 标签: 文本到SQL

数据集结构

  • 特征:
    • db_id: 字符串类型
    • query: 字符串类型
    • question: 字符串类型
    • query_toks: 字符串序列类型
    • query_toks_no_value: 字符串序列类型
    • question_toks: 字符串序列类型
  • 数据分割:
    • 训练集: 7000个示例,总字节数4743786
    • 验证集: 1034个示例,总字节数682090
  • 下载大小: 99736136字节
  • 数据集大小: 5425876字节

数据集创建

  • 注释创建者: 专家生成
  • 语言创建者: 专家生成和机器生成
  • 注释: 由耶鲁大学的11名学生标注

数据集使用注意事项

  • 社会影响: 未提供详细信息
  • 偏见讨论: 未提供详细信息
  • 其他已知限制: 未提供详细信息

附加信息

  • 数据集维护者: 未提供详细信息

  • 许可证信息: 数据集根据CC BY-SA 4.0授权

  • 引用信息:

    @article{yu2018spider, title={Spider: A large-scale human-labeled dataset for complex and cross-domain semantic parsing and text-to-sql task}, author={Yu, Tao and Zhang, Rui and Yang, Kai and Yasunaga, Michihiro and Wang, Dongxu and Li, Zifan and Ma, James and Li, Irene and Yao, Qingning and Roman, Shanelle and others}, journal={arXiv preprint arXiv:1809.08887}, year={2018} }

  • 贡献者: 感谢@olinguyen添加此数据集

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作