aherntech/spider-syn

Name: aherntech/spider-syn
Creator: aherntech
Published: 2024-01-29 22:52:05
License: 暂无描述

Hugging Face2024-01-29 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/aherntech/spider-syn

下载链接

链接失效反馈

官方服务：

资源简介：

Spider-Syn是一个基于Spider文本到SQL数据库的人工策划变体，旨在测试文本到SQL模型在替换同义词时的鲁棒性。该数据集通过手动选择反映现实世界问题改写的同义词来修改Spider中的自然语言问题，从而消除自然语言问题与表模式之间的显式对应关系。研究表明，即使同义词不是对抗性选择的，模型的准确性也会显著下降。此外，提出了两种提高模型鲁棒性的方法：一种是利用额外的同义词注释修改模型输入，另一种是基于对抗训练。这两种方法都显著优于没有防御的对应方法，且第一种方法更为有效。

提供机构：

aherntech

原始信息汇总

数据集概述

基本信息

许可证：MIT
任务类别：文本到文本生成
语言：英语
标签：文本到SQL
美观名称：Spider-Syn
数据集大小：1K<n<10K

数据集描述

名称：Spider-Syn
来源：人类策划的Spider Text-to-SQL数据库变体
目的：测试文本到SQL模型对同义词替换的鲁棒性

论文摘要

研究背景：尽管在某些公共基准上取得了良好的性能，但现有的文本到SQL模型通常依赖于自然语言问题中的词汇与表模式中的标记之间的词汇匹配，这可能使模型容易受到破坏模式链接机制的攻击。
研究内容：研究文本到SQL模型对同义词替换的鲁棒性。
数据集介绍：Spider-Syn是一个基于Spider基准的人工策划数据集，通过将Spider中的模式相关词汇替换为手动选择的同义词来修改自然语言问题。
实验结果：消除自然语言问题与表模式之间的显式对应关系会导致准确性大幅下降，即使同义词不是为了进行最坏情况下的对抗性攻击而选择的。
改进方法：提出了两种提高模型鲁棒性的方法，一种是利用表模式的额外同义词注释修改模型输入，另一种是基于对抗性训练。实验表明，这两种方法都显著优于没有防御措施的对应方法，且第一种方法更有效。

引用信息

@inproceedings{gan-etal-2021-towards, title = "Towards Robustness of Text-to-{SQL} Models against Synonym Substitution", author = "Gan, Yujian and Chen, Xinyun and Huang, Qiuping and Purver, Matthew and Woodward, John R. and Xie, Jinxia and Huang, Pengsheng", month = aug, year = "2021", address = "Online", publisher = "Association for Computational Linguistics", url = "https://aclanthology.org/2021.acl-long.195", doi = "10.18653/v1/2021.acl-long.195", pages = "2505--2515", }

搜集汇总

数据集介绍

构建方式

Spider-Syn 数据集是由人类专家精心制作的，基于Spider Text-to-SQL数据库的变体。该数据集通过替换自然语言（NL）问题中与模式相关的词汇以同义词，模拟现实世界中的问题 paraphrases，旨在测试文本到SQL模型对于同义词替换的鲁棒性。

特点

Spider-Syn 数据集的特点在于其经过人工挑选的同义词替换，使得NL问题与表模式之间的明确对应关系被消除，从而降低了模型的准确性。这一特性使得数据集在评估文本到SQL模型的鲁棒性方面具有显著价值。此外，数据集规模适中，便于研究和实验。

使用方法

使用Spider-Syn数据集时，研究者可以将其作为文本到SQL模型的训练和测试数据。数据集提供了两种改进模型鲁棒性的方法：一种是在模型输入中利用额外的同义词注释，另一种是基于对抗性训练。研究者可根据这些方法对模型进行优化和评估。

背景与挑战

背景概述

Spider-Syn数据集，作为Spider Text-to-SQL数据库的人工校对变体，其创建旨在评估文本到SQL模型对于同义词替换的健壮性。该数据集的构建背景源于对现有文本到SQL模型在自然语言处理领域中所面临的挑战，尤其是模型对词汇匹配的依赖性。Spider-Syn由Yujian Gan等研究人员于2021年提出，并在ACL 2021会议上发表相关论文，该数据集通过人工选择同义词替换Spider数据库中的自然语言问题，以模拟现实世界中的问题改写，从而为研究文本到SQL翻译模型的健壮性提供了新的视角。

当前挑战

该数据集面临的挑战主要体现在两个方面：一是模型在处理同义词替换时的鲁棒性问题，这要求模型不仅能够处理常规的词汇匹配，还需适应词汇的多样性和多义性；二是数据集构建过程中确保同义词替换的准确性和代表性，这需要大量的人工校对和同义词的精心挑选。此外，如何提升模型对这类替换的鲁棒性，成为了当前研究的焦点，涉及了对模型输入的修改和对抗性训练等策略的应用。

常用场景

经典使用场景

在自然语言处理领域，Spider-Syn 数据集被广泛应用于评估和提升文本到SQL转换模型的鲁棒性。该数据集通过同义词替换，模拟现实世界中问题表述的多样性，进而检验模型在处理非字面匹配查询时的表现。

衍生相关工作

基于Spider-Syn 数据集的研究，已经衍生出多种增强文本到SQL模型鲁棒性的方法。这些研究不仅包括对模型输入进行同义词注释的改进策略，还涵盖了基于对抗性训练的方法，共同为构建更加鲁棒的自然语言查询系统提供了理论和技术支持。

数据集最近研究