five

aherntech/spider-realistic|自然语言处理数据集|文本到SQL转换数据集

收藏
hugging_face2024-02-18 更新2024-03-04 收录
自然语言处理
文本到SQL转换
下载链接:
https://hf-mirror.com/datasets/aherntech/spider-realistic
下载链接
链接失效反馈
资源简介:
Spider-Realistic数据集是用于文本到SQL生成任务的一个变体,基于Spider数据集的开发集创建。该数据集的特点是对原始问题进行了修改,移除了对列名的显式提及,同时保持SQL查询不变,以更好地评估模型在自然语言表达和数据库模式对齐方面的能力。数据集保留了原始Spider数据集中的SQL查询和数据库。

Spider-Realistic数据集是用于文本到SQL生成任务的一个变体,基于Spider数据集的开发集创建。该数据集的特点是对原始问题进行了修改,移除了对列名的显式提及,同时保持SQL查询不变,以更好地评估模型在自然语言表达和数据库模式对齐方面的能力。数据集保留了原始Spider数据集中的SQL查询和数据库。
提供机构:
aherntech
原始信息汇总

数据集卡片 for Spider-Releastic

概述

  • 许可证: CC BY-SA 4.0
  • 任务类别: text2text-generation
  • 语言: en
  • 标签: text-to-sql
  • 数据集名称: Spider-Releastic
  • 数据集大小: n<1K

数据集描述

  • 来源: 该数据集是基于Spider数据集(2020-06-07版本)的dev split创建的。
  • 修改内容: 原始问题中的列名被移除,但SQL查询保持不变,以更好地评估模型在自然语言表述和数据库模式对齐方面的能力。
  • 原始数据集: Spider数据集的SQL查询和数据库保持不变。
  • 官方数据库文件: 请参考Spider发布站点。
  • 数据集来源: 该数据集从Zenodo复制。

相关论文

  • 标题: Structure-Grounded Pretraining for Text-to-SQL

  • 作者: Deng, Xiang 等

  • 摘要: 本文介绍了一种新的弱监督结构化预训练框架(StruG),用于文本到SQL的任务,该框架能够基于并行文本-表格语料库有效地学习文本-表格对齐。

  • 引用信息:

    @article{deng2020structure, title={Structure-Grounded Pretraining for Text-to-SQL}, author={Deng, Xiang and Awadallah, Ahmed Hassan and Meek, Christopher and Polozov, Oleksandr and Sun, Huan and Richardson, Matthew}, journal={arXiv preprint arXiv:2010.12773}, year={2020} }

原始Spider数据集引用

  • 标题: Spider: A Large-Scale Human-Labeled Dataset for Complex and Cross-Domain Semantic Parsing and Text-to-SQL Task

  • 作者: Tao Yu 等

  • 引用信息:

    @inproceedings{Yu&al.18c, year = 2018, title = {Spider: A Large-Scale Human-Labeled Dataset for Complex and Cross-Domain Semantic Parsing and Text-to-SQL Task}, booktitle = {EMNLP}, author = {Tao Yu and Rui Zhang and Kai Yang and Michihiro Yasunaga and Dongxu Wang and Zifan Li and James Ma and Irene Li and Qingning Yao and Shanelle Roman and Zilin Zhang and Dragomir Radev} }

AI搜集汇总
数据集介绍
main_image_url
构建方式
Spider-Realistic 数据集是在Spider数据集的基础上构建的,选取了Spider数据集的开发集(2020-06-07版本),作者对原始问题进行了修改,去除了对列名称的显式提及,同时保持SQL查询不变,以更好地评估模型在将自然语言表达与数据库模式对齐方面的能力。
使用方法
使用 Spider-Realistic 数据集时,用户可以直接从官方发布的资源中获取数据库文件,并根据数据集的许可协议(CC BY-SA 4.0)进行使用。在使用时,应引用相关的论文和原始的Spider数据集,以遵循学术规范和贡献者的权益。
背景与挑战
背景概述
Spider-Realistic数据集,源自Spider数据集,由Deng等人于2020年基于Yale-lily提供的Spider数据集(2020-06-07版本)进行修改。该数据集的核心研究问题在于评估模型在无需显式列名提及的情况下,将自然语言表述与数据库模式相对应的能力。Spider-Realistic的创建,旨在为文本到SQL任务提供一种更加现实和具有挑战性的评估环境,从而推动了结构化文本与表格对齐学习的进步。该数据集对相关领域的贡献在于,它促进了文本到SQL任务中模型性能的提升,并拓展了结构化预训练方法的应用范围。
当前挑战
Spider-Realistic数据集在构建过程中遇到的挑战主要包括:如何在不改变SQL查询的情况下,合理修改原始问题以去除显式的列名提及;以及如何有效评估模型在更加真实的文本表格对齐场景下的性能。此外,数据集构建者还面临了如何在保持数据集一致性的同时,兼顾跨数据库评估的挑战。在所解决的领域问题方面,Spider-Realistic数据集的挑战在于,如何提升模型对于自然语言表述与数据库模式之间复杂映射关系的理解与处理能力。
常用场景
经典使用场景
在自然语言处理领域,Spider-Realistic数据集的使用尤为关键,其经典使用场景主要在于评估和训练文本到SQL的映射能力。通过去除原始Spider数据集中对列名称的显式提及,该数据集为研究者在更接近现实的使用环境中评估模型的性能提供了可能,进而促进模型在理解自然语言与数据库模式之间的对应关系方面的进步。
解决学术问题
Spider-Realistic数据集解决了传统文本到SQL任务中模型对列名称依赖的过度问题,有助于评估模型在未显式提及列名时的处理能力。这对于提高模型的泛化能力和适应复杂查询的需求具有重要意义,为学术研究提供了新的评价标准和方向。
实际应用
在实际应用中,Spider-Realistic数据集的应用场景广泛,包括但不限于智能问答系统、数据库查询接口的设计与优化,以及信息检索系统中对自然语言查询的理解与处理,为这些领域带来了显著的效率提升和用户体验改善。
数据集最近研究
最新研究方向
在自然语言处理领域,文本到SQL(Text-to-SQL)任务是一个关键的研究方向,旨在将自然语言文本转换为结构化查询语言。Spider-Realistic数据集的构建,旨在更为真实地评估模型在文本与数据库模式对齐方面的能力。该数据集移除了原始Spider数据集中对列名的显式提及,从而促使模型在缺乏直接指示的情况下,学习如何将自然语言表述与数据库模式相匹配。近期的研究工作采用了弱监督的结构化基础预训练框架(StruG),通过一系列新颖的预测任务,如列对齐、值对齐以及列值映射,有效学习了文本-表格对齐。此研究不仅为Text-to-SQL任务提供了性能显著提升的方法,而且对于评估和改进自然语言处理模型在数据库查询方面的应用具有重要的实践意义。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
5,000+
优质数据集
54 个
任务类型
进入经典数据集