Adversarial GLUE (AdvGLUE)

Name: Adversarial GLUE (AdvGLUE)
Creator: 伊利诺伊大学厄巴纳-香槟分校, 浙江大学, 微软公司
Published: 2022-01-10 14:05:16
License: 暂无描述

arXiv2022-01-10 更新2024-06-21 收录

下载链接：

https://adversarialglue.github.io

下载链接

链接失效反馈

官方服务：

资源简介：

AdvGLUE是一个针对语言模型鲁棒性评估的多任务基准，由伊利诺伊大学厄巴纳-香槟分校、浙江大学和微软公司合作创建。该数据集包含4978条数据，通过系统地应用14种文本对抗攻击方法于GLUE任务，旨在全面探索和评估现代大规模语言模型在各种对抗攻击下的脆弱性。AdvGLUE数据集的构建过程包括对GLUE任务的系统攻击、人工验证以确保高质量的基准，以及对现有语言模型和鲁棒训练方法的彻底评估。该数据集的应用领域主要集中在提高语言模型对复杂对抗攻击的鲁棒性，解决模型在面对精心设计的文本对抗样本时的脆弱性问题。

AdvGLUE is a multi-task benchmark for evaluating the robustness of language models, jointly created by the University of Illinois Urbana-Champaign, Zhejiang University, and Microsoft Corporation. This dataset contains 4,978 instances, which are generated by systematically applying 14 text adversarial attack methods to GLUE tasks, aiming to comprehensively explore and assess the vulnerability of modern large-scale language models under various adversarial attacks. The construction process of the AdvGLUE dataset includes systematic adversarial attacks on GLUE tasks, manual verification to ensure the high quality of the benchmark, and thorough evaluation of existing language models and robust training methods. The main application fields of this dataset focus on improving the robustness of language models against complex adversarial attacks, and addressing the vulnerability of models when facing carefully designed text adversarial examples.

提供机构：

伊利诺伊大学厄巴纳-香槟分校, 浙江大学, 微软公司

创建时间：

2021-11-04

搜集汇总

数据集介绍

构建方式

Adversarial GLUE (AdvGLUE) 数据集的构建旨在评估语言模型在对抗性攻击下的鲁棒性。该数据集通过系统地应用14种文本对抗性攻击方法到GLUE任务上，并经过人工验证，以构建一个可靠的高质量基准。数据集构建过程中，首先选取GLUE基准的开发集作为源样本，然后对其应用不同级别的对抗性扰动，包括基于词的变换和基于句子的操作。为了确保数据集的质量和有效性，数据集构建过程中还进行了自动过滤和人工评估，以筛选出高质量的对抗性样本。

特点

Adversarial GLUE (AdvGLUE) 数据集具有以下特点：1)全面覆盖：考虑了不同层次和角度的文本对抗性攻击，包括基于词的变换、基于句子的操作和人工编写的对抗性样本，以尽可能覆盖更多的对抗性语言现象。2)系统标注：首次对14种不同的文本对抗性样本进行了系统和全面的评估和标注，以识别高质量的对抗性数据。3)通用兼容性：涵盖了广泛使用的GLUE任务，并创建了GLUE基准的对抗性版本，以评估语言模型在不同NLU任务上的鲁棒性。4)高迁移性和有效性：AdvGLUE具有高对抗性迁移性，能够有效地攻击各种最先进的模型。

使用方法

使用Adversarial GLUE (AdvGLUE) 数据集评估语言模型的鲁棒性时，可以按照以下步骤进行：1)选择合适的语言模型，并使用GLUE基准的训练数据进行预训练。2)将预训练的语言模型在AdvGLUE数据集上进行微调，以适应对抗性攻击。3)使用AdvGLUE数据集对微调后的语言模型进行评估，以评估其在对抗性攻击下的鲁棒性。4)分析评估结果，以了解模型在不同对抗性攻击下的表现，并找出模型的弱点。

背景与挑战

背景概述

在自然语言理解（NLU）领域，预训练语言模型在各类任务中取得了突破性进展，甚至超越了人类表现。然而，这些模型在面对精心设计的对抗性文本时，其鲁棒性却备受挑战。为了评估和提升语言模型的鲁棒性，伊利诺伊大学香槟分校、浙江大学和微软公司的研究人员共同创建了Adversarial GLUE (AdvGLUE)数据集。该数据集于2022年1月发布，旨在构建一个全面的基准，用于量化评估大型语言模型在不同类型的对抗性攻击下的脆弱性。AdvGLUE通过对GLUE基准任务进行14种文本对抗性攻击方法的应用，构建了对抗性数据集，并经过人工验证确保了数据的可靠性和高质量。该数据集的发布对相关领域产生了重要影响，推动了对抗性攻击和鲁棒性语言模型的研究进展。

当前挑战

AdvGLUE数据集面临的主要挑战包括：1) 所解决的领域问题：该数据集旨在评估大型语言模型在对抗性攻击下的鲁棒性，揭示了现有模型在面对精心设计的对抗性文本时的脆弱性。2) 构建过程中所遇到的挑战：AdvGLUE数据集的构建过程中，研究人员面临了诸多挑战，例如如何选择有效的对抗性攻击方法、如何确保对抗性样本的质量和有效性、如何进行数据清洗和人工标注等。为了解决这些挑战，研究人员采用了多种策略，例如对现有攻击方法进行系统分析、使用人工标注和过滤机制等。

常用场景

经典使用场景

Adversarial GLUE (AdvGLUE) 数据集是专门为评估语言模型鲁棒性而设计的多任务基准数据集。它通过将14种不同的文本对抗攻击方法应用于GLUE任务来构建，旨在全面探索和评估现代大规模语言模型在各种对抗性攻击下的脆弱性。AdvGLUE数据集不仅包括自动生成的对抗性样本，还包括人类编写的对抗性样本，从而涵盖了更广泛的对抗性语言现象。

衍生相关工作

AdvGLUE数据集的发布推动了鲁棒性语言模型的研究。基于AdvGLUE数据集，研究人员提出了许多新的鲁棒性训练方法，例如SMART、FreeLB和InfoBERT，以提高语言模型对对抗性攻击的鲁棒性。此外，AdvGLUE数据集还促进了对抗性攻击算法的研究，例如TextBugger、TextFooler和BERT-ATTACK，以生成更高质量的对抗性样本。

数据集最近研究