five

aherntech/spider-syn

收藏
Hugging Face2024-01-29 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/aherntech/spider-syn
下载链接
链接失效反馈
官方服务:
资源简介:
Spider-Syn是一个基于Spider文本到SQL数据库的人工策划变体,旨在测试文本到SQL模型在替换同义词时的鲁棒性。该数据集通过手动选择反映现实世界问题改写的同义词来修改Spider中的自然语言问题,从而消除自然语言问题与表模式之间的显式对应关系。研究表明,即使同义词不是对抗性选择的,模型的准确性也会显著下降。此外,提出了两种提高模型鲁棒性的方法:一种是利用额外的同义词注释修改模型输入,另一种是基于对抗训练。这两种方法都显著优于没有防御的对应方法,且第一种方法更为有效。

Spider-Syn是一个基于Spider文本到SQL数据库的人工策划变体,旨在测试文本到SQL模型在替换同义词时的鲁棒性。该数据集通过手动选择反映现实世界问题改写的同义词来修改Spider中的自然语言问题,从而消除自然语言问题与表模式之间的显式对应关系。研究表明,即使同义词不是对抗性选择的,模型的准确性也会显著下降。此外,提出了两种提高模型鲁棒性的方法:一种是利用额外的同义词注释修改模型输入,另一种是基于对抗训练。这两种方法都显著优于没有防御的对应方法,且第一种方法更为有效。
提供机构:
aherntech
原始信息汇总

数据集概述

基本信息

  • 许可证:MIT
  • 任务类别:文本到文本生成
  • 语言:英语
  • 标签:文本到SQL
  • 美观名称:Spider-Syn
  • 数据集大小:1K<n<10K

数据集描述

  • 名称:Spider-Syn
  • 来源:人类策划的Spider Text-to-SQL数据库变体
  • 目的:测试文本到SQL模型对同义词替换的鲁棒性

论文摘要

  • 研究背景:尽管在某些公共基准上取得了良好的性能,但现有的文本到SQL模型通常依赖于自然语言问题中的词汇与表模式中的标记之间的词汇匹配,这可能使模型容易受到破坏模式链接机制的攻击。
  • 研究内容:研究文本到SQL模型对同义词替换的鲁棒性。
  • 数据集介绍:Spider-Syn是一个基于Spider基准的人工策划数据集,通过将Spider中的模式相关词汇替换为手动选择的同义词来修改自然语言问题。
  • 实验结果:消除自然语言问题与表模式之间的显式对应关系会导致准确性大幅下降,即使同义词不是为了进行最坏情况下的对抗性攻击而选择的。
  • 改进方法:提出了两种提高模型鲁棒性的方法,一种是利用表模式的额外同义词注释修改模型输入,另一种是基于对抗性训练。实验表明,这两种方法都显著优于没有防御措施的对应方法,且第一种方法更有效。

引用信息

@inproceedings{gan-etal-2021-towards, title = "Towards Robustness of Text-to-{SQL} Models against Synonym Substitution", author = "Gan, Yujian and Chen, Xinyun and Huang, Qiuping and Purver, Matthew and Woodward, John R. and Xie, Jinxia and Huang, Pengsheng", month = aug, year = "2021", address = "Online", publisher = "Association for Computational Linguistics", url = "https://aclanthology.org/2021.acl-long.195", doi = "10.18653/v1/2021.acl-long.195", pages = "2505--2515", }

搜集汇总
数据集介绍
main_image_url
构建方式
Spider-Syn 数据集是由人类专家精心制作的,基于Spider Text-to-SQL数据库的变体。该数据集通过替换自然语言(NL)问题中与模式相关的词汇以同义词,模拟现实世界中的问题 paraphrases,旨在测试文本到SQL模型对于同义词替换的鲁棒性。
特点
Spider-Syn 数据集的特点在于其经过人工挑选的同义词替换,使得NL问题与表模式之间的明确对应关系被消除,从而降低了模型的准确性。这一特性使得数据集在评估文本到SQL模型的鲁棒性方面具有显著价值。此外,数据集规模适中,便于研究和实验。
使用方法
使用Spider-Syn数据集时,研究者可以将其作为文本到SQL模型的训练和测试数据。数据集提供了两种改进模型鲁棒性的方法:一种是在模型输入中利用额外的同义词注释,另一种是基于对抗性训练。研究者可根据这些方法对模型进行优化和评估。
背景与挑战
背景概述
Spider-Syn数据集,作为Spider Text-to-SQL数据库的人工校对变体,其创建旨在评估文本到SQL模型对于同义词替换的健壮性。该数据集的构建背景源于对现有文本到SQL模型在自然语言处理领域中所面临的挑战,尤其是模型对词汇匹配的依赖性。Spider-Syn由Yujian Gan等研究人员于2021年提出,并在ACL 2021会议上发表相关论文,该数据集通过人工选择同义词替换Spider数据库中的自然语言问题,以模拟现实世界中的问题改写,从而为研究文本到SQL翻译模型的健壮性提供了新的视角。
当前挑战
该数据集面临的挑战主要体现在两个方面:一是模型在处理同义词替换时的鲁棒性问题,这要求模型不仅能够处理常规的词汇匹配,还需适应词汇的多样性和多义性;二是数据集构建过程中确保同义词替换的准确性和代表性,这需要大量的人工校对和同义词的精心挑选。此外,如何提升模型对这类替换的鲁棒性,成为了当前研究的焦点,涉及了对模型输入的修改和对抗性训练等策略的应用。
常用场景
经典使用场景
在自然语言处理领域,Spider-Syn 数据集被广泛应用于评估和提升文本到SQL转换模型的鲁棒性。该数据集通过同义词替换,模拟现实世界中问题表述的多样性,进而检验模型在处理非字面匹配查询时的表现。
衍生相关工作
基于Spider-Syn 数据集的研究,已经衍生出多种增强文本到SQL模型鲁棒性的方法。这些研究不仅包括对模型输入进行同义词注释的改进策略,还涵盖了基于对抗性训练的方法,共同为构建更加鲁棒的自然语言查询系统提供了理论和技术支持。
数据集最近研究
最新研究方向
在自然语言处理领域,文本到SQL的转换模型研究正逐渐深入。Spider-Syn数据集的构建,旨在测试文本到SQL模型对于同义词替换的鲁棒性。该数据集通过人工挑选的同义词替换Spider基准数据集中的自然语言问题,揭示了模型在显式对应关系消失时的性能下降。研究进一步探讨了两种提升模型鲁棒性的方法:一种是通过修改模型输入,引入额外的同义词标注;另一种是基于对抗训练的方法。此研究不仅拓宽了文本到SQL转换模型的应用前景,也为模型的安全性和稳定性提供了新的研究方向和防御策略。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作