HusnaManakkot/haispider

Name: HusnaManakkot/haispider
Creator: HusnaManakkot
Published: 2024-03-05 07:26:53
License: 暂无描述

Hugging Face2024-03-05 更新2024-06-22 收录

下载链接：

https://hf-mirror.com/datasets/HusnaManakkot/haispider

下载链接

链接失效反馈

官方服务：

资源简介：

Spider是一个大规模、复杂且跨领域的语义解析和文本到SQL数据集，由11名耶鲁大学的学生注释。该数据集的目标是开发跨领域数据库的自然语言接口。数据集包含自然语言问题及其对应的SQL查询，主要用于文本到SQL的生成任务。数据集的语言为英语，包含7000个训练问题和1034个开发问题。

提供机构：

HusnaManakkot

原始信息汇总

数据集卡片 for Spider

数据集描述

主页: https://yale-lily.github.io/spider
仓库: https://github.com/taoyds/spider
论文: https://www.aclweb.org/anthology/D18-1425/
联系人: Yale LILY

数据集总结

Spider 是一个大规模复杂和跨领域的语义解析和文本到SQL数据集，由11名耶鲁大学学生标注。Spider挑战的目标是开发跨领域数据库的自然语言接口。

支持的任务和排行榜

排行榜: https://yale-lily.github.io/spider

语言

数据集中的文本是英文。

数据集结构

数据实例

实例代表: 每个实例是一个自然语言问题和相应的SQL查询。
实例总数: [更多信息需要]
每个实例包含的数据: [更多信息需要]

数据字段

db_id: 数据库名称
question: 自然语言问题
query: 目标SQL查询
query_toks: 查询的标记列表
query_toks_no_value: 查询的标记列表（无值）
question_toks: 问题的标记列表

数据分割

train: 7000个问题和SQL查询对
dev: 1034个问题和SQL查询对

数据集创建

策划理由

[更多信息需要]

源数据

初始数据收集和规范化: [更多信息需要]
源语言生产者: [更多信息需要]

标注

标注者: 11名耶鲁大学学生
标注过程: [更多信息需要]

个人和敏感信息

[更多信息需要]

数据使用考虑

社会影响: [更多信息需要]
偏见讨论: [更多信息需要]

其他已知限制

[更多信息需要]

附加信息

数据集维护者: 主页上列出的作者

许可证信息

Spider 数据集在 CC BY-SA 4.0 许可证下发布。

引用信息

@article{yu2018spider, title={Spider: A large-scale human-labeled dataset for complex and cross-domain semantic parsing and text-to-sql task}, author={Yu, Tao and Zhang, Rui and Yang, Kai and Yasunaga, Michihiro and Wang, Dongxu and Li, Zifan and Ma, James and Li, Irene and Yao, Qingning and Roman, Shanelle and others}, journal={arXiv preprint arXiv:1809.08887}, year={2018} }

5,000+

优质数据集

54 个

任务类型

进入经典数据集