aherntech/spider-realistic

Name: aherntech/spider-realistic
Creator: aherntech
Published: 2024-02-18 10:43:34
License: 暂无描述

Hugging Face2024-02-18 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/aherntech/spider-realistic

下载链接

链接失效反馈

官方服务：

资源简介：

Spider-Realistic数据集是用于文本到SQL生成任务的一个变体，基于Spider数据集的开发集创建。该数据集的特点是对原始问题进行了修改，移除了对列名的显式提及，同时保持SQL查询不变，以更好地评估模型在自然语言表达和数据库模式对齐方面的能力。数据集保留了原始Spider数据集中的SQL查询和数据库。

提供机构：

aherntech

原始信息汇总

数据集卡片 for Spider-Releastic

概述

许可证: CC BY-SA 4.0
任务类别: text2text-generation
语言: en
标签: text-to-sql
数据集名称: Spider-Releastic
数据集大小: n<1K

数据集描述

来源: 该数据集是基于Spider数据集（2020-06-07版本）的dev split创建的。
修改内容: 原始问题中的列名被移除，但SQL查询保持不变，以更好地评估模型在自然语言表述和数据库模式对齐方面的能力。
原始数据集: Spider数据集的SQL查询和数据库保持不变。
官方数据库文件: 请参考Spider发布站点。
数据集来源: 该数据集从Zenodo复制。

原始Spider数据集引用

标题: Spider: A Large-Scale Human-Labeled Dataset for Complex and Cross-Domain Semantic Parsing and Text-to-SQL Task
作者: Tao Yu 等
引用信息:

@inproceedings{Yu&al.18c, year = 2018, title = {Spider: A Large-Scale Human-Labeled Dataset for Complex and Cross-Domain Semantic Parsing and Text-to-SQL Task}, booktitle = {EMNLP}, author = {Tao Yu and Rui Zhang and Kai Yang and Michihiro Yasunaga and Dongxu Wang and Zifan Li and James Ma and Irene Li and Qingning Yao and Shanelle Roman and Zilin Zhang and Dragomir Radev} }

搜集汇总

数据集介绍

构建方式

Spider-Realistic 数据集是在Spider数据集的基础上构建的，选取了Spider数据集的开发集（2020-06-07版本），作者对原始问题进行了修改，去除了对列名称的显式提及，同时保持SQL查询不变，以更好地评估模型在将自然语言表达与数据库模式对齐方面的能力。

使用方法

使用 Spider-Realistic 数据集时，用户可以直接从官方发布的资源中获取数据库文件，并根据数据集的许可协议（CC BY-SA 4.0）进行使用。在使用时，应引用相关的论文和原始的Spider数据集，以遵循学术规范和贡献者的权益。

背景与挑战

背景概述

Spider-Realistic数据集，源自Spider数据集，由Deng等人于2020年基于Yale-lily提供的Spider数据集（2020-06-07版本）进行修改。该数据集的核心研究问题在于评估模型在无需显式列名提及的情况下，将自然语言表述与数据库模式相对应的能力。Spider-Realistic的创建，旨在为文本到SQL任务提供一种更加现实和具有挑战性的评估环境，从而推动了结构化文本与表格对齐学习的进步。该数据集对相关领域的贡献在于，它促进了文本到SQL任务中模型性能的提升，并拓展了结构化预训练方法的应用范围。

当前挑战

Spider-Realistic数据集在构建过程中遇到的挑战主要包括：如何在不改变SQL查询的情况下，合理修改原始问题以去除显式的列名提及；以及如何有效评估模型在更加真实的文本表格对齐场景下的性能。此外，数据集构建者还面临了如何在保持数据集一致性的同时，兼顾跨数据库评估的挑战。在所解决的领域问题方面，Spider-Realistic数据集的挑战在于，如何提升模型对于自然语言表述与数据库模式之间复杂映射关系的理解与处理能力。

常用场景

经典使用场景

在自然语言处理领域，Spider-Realistic数据集的使用尤为关键，其经典使用场景主要在于评估和训练文本到SQL的映射能力。通过去除原始Spider数据集中对列名称的显式提及，该数据集为研究者在更接近现实的使用环境中评估模型的性能提供了可能，进而促进模型在理解自然语言与数据库模式之间的对应关系方面的进步。

解决学术问题

Spider-Realistic数据集解决了传统文本到SQL任务中模型对列名称依赖的过度问题，有助于评估模型在未显式提及列名时的处理能力。这对于提高模型的泛化能力和适应复杂查询的需求具有重要意义，为学术研究提供了新的评价标准和方向。

实际应用

在实际应用中，Spider-Realistic数据集的应用场景广泛，包括但不限于智能问答系统、数据库查询接口的设计与优化，以及信息检索系统中对自然语言查询的理解与处理，为这些领域带来了显著的效率提升和用户体验改善。

数据集最近研究

aherntech/spider-realistic

数据集卡片 for Spider-Releastic

概述

数据集描述

相关论文

原始Spider数据集引用