BOSS

arXiv2023-10-26 更新2024-07-30 收录

下载链接：

https://github.com/lifan-yuan/OOD_NLP

下载链接

链接失效反馈

资源简介：

BOSS是一个用于评估自然语言处理中分布外鲁棒性的基准套件，涵盖5个任务和20个数据集。

BOSS is a benchmark suite for evaluating out-of-distribution robustness in natural language processing, covering 5 tasks and 20 datasets.

创建时间：

2023-06-08

原始信息汇总

数据集概述

数据集内容

任务覆盖：包含五个代表性的NLP任务。
数据集类型：每个任务包含一个ID（In-Distribution）数据集和三个对应的OOD（Out-of-Distribution）数据集。
数据下载：数据集可从此处下载，并放置在./datasets/process目录下。

数据集访问

特殊要求：访问Implicit Hate和ToxiGen数据集需先填写相应表格。
- Implicit Hate：表格链接
- ToxiGen：表格链接

数据集选择原则

原则1：ID数据集应提供足够的知识以供模型处理任务。
原则2：同一任务内的数据集应来自不同的分布，以进行全面的评估。
原则3：OOD数据集应具有挑战性，以准确评估OOD鲁棒性的进展。

数据集处理与选择

原始数据下载：参考./datasets目录下的markdown文件获取原始数据集，并按任务组织在./datasets/raw目录下。
数据处理：运行./src/dataset_processing目录下的代码处理数据集，例如处理amazon数据集的命令为：

python ./src/dataset_processing/SentimentAnalysis/amazon.py
数据集统计：处理完所有候选数据集后，运行python ./src/dataset_selection/stat.py获取数据集统计信息。
语义相似度计算：运行python ./src/dataset_selection/simcse.py计算数据集对之间的语义相似度。
模型训练与测试：在ID数据集上训练模型并在对应的OOD数据集上测试，通过运行sh ./scripts/run_method.sh实现。

数据集分析

ID-OOD性能分析：通过调整模型规模、训练步数、可用训练样本和可调参数四个因素，分析PLMs在vanilla fine-tuning下的ID-OOD性能关系。
实验运行命令：参考./scripts/run_shots.sh、./scripts/run_steps.sh和./scripts/run_peft.sh文件。

数据集评估

鲁棒性增强方法评估：运行sh ./scripts/run_method.sh评估现有鲁棒性增强方法的效果。
LLMs评估：运行python llm.py --model_name MODEL_NAME --setting SETTING评估LLMs在基准上的性能。
- MODEL_NAME可选值：turbo、davinci3、llama
- SETTING可选值：zero-shot、in-context、ood-in-context

搜集汇总

数据集介绍

构建方式

BOSS 数据集的构建遵循一套精心设计的协议，旨在解决先前研究中数据分布偏移设置不足的问题。该协议包含三个基本原则：ID 数据集应具有足够大的规模和多样性，以涵盖全面的知识；OOD 数据集应来自不同的分布，并且在文本来源和语义上与 ID 数据集具有差异性；数据分布偏移应具有挑战性，以确保基准测试的长期有效性。基于此协议，BOSS 数据集涵盖了五个任务和 20 个数据集，包括情感分析、毒性检测、自然语言推理、命名实体识别和抽取式问答等任务。

使用方法

使用 BOSS 数据集进行 OOD 鲁棒性评估时，需要按照以下步骤进行：1. 选择合适的 ID 数据集和 OOD 数据集：根据 BOSS 数据集中的任务类型，选择合适的 ID 数据集和 OOD 数据集进行评估。2. 训练和评估模型：使用所选数据集训练模型，并在 ID 和 OOD 数据集上评估模型的性能。3. 分析 ID 和 OOD 性能相关性：使用 BOSS 数据集分析模型的 ID 和 OOD 性能之间的相关性，以了解模型的学习机制和鲁棒性。4. 评估鲁棒性增强方法：使用 BOSS 数据集评估现有的鲁棒性增强方法，以评估其有效性和适用性。5. 评估大型语言模型：使用 BOSS 数据集评估大型语言模型在 OOD 场景下的性能，并探索不同的适应范式。

背景与挑战

背景概述

BOSS 数据集是针对自然语言处理 (NLP) 领域中模型在分布外 (OOD) 环境下的鲁棒性评估而构建的基准测试套件。该数据集由清华大学 NLP 组、伊利诺伊大学香槟分校、中国科学院大学和腾讯公司的研究人员共同创建，并于 2023 年 10 月 26 日在 arXiv 上发布了相关论文。BOSS 数据集旨在解决现有 OOD 评估基准的不足，例如数据集选择缺乏挑战性和分布偏移设置不足等问题。该数据集涵盖了 5 个 NLP 任务（情感分析、毒性检测、自然语言推理、命名实体识别和摘要问答）和 20 个数据集，旨在提供一个全面且具有挑战性的 OOD 鲁棒性评估平台。通过对预训练语言模型进行一系列实验，BOSS 数据集揭示了模型在 ID 和 OOD 数据集上的性能相关性，并评估了现有鲁棒性增强方法和大型语言模型 (LLM) 的有效性。

当前挑战

BOSS 数据集所面临的挑战主要包括：1) 如何构建一个更具挑战性的 OOD 评估基准，以更准确地评估模型的鲁棒性；2) 如何有效地提高模型在 OOD 环境下的泛化能力；3) 如何更好地理解模型在 ID 和 OOD 环境下的学习机制，以及如何利用这些理解来预测模型的 OOD 鲁棒性；4) 如何评估和比较现有的鲁棒性增强方法和 LLM 的有效性；5) 如何开发新的技术和方法，以提高模型在 OOD 环境下的鲁棒性。

常用场景

经典使用场景

BOSS 数据集被广泛应用于评估和提升自然语言处理模型在非分布内（OOD）数据上的鲁棒性。它为研究人员提供了一个包含 5 个任务和 20 个数据集的基准测试套件，用于分析预训练语言模型在不同分布变化下的表现。通过对模型在 ID 和 OOD 数据集上的性能进行关联分析，BOSS 有助于揭示模型学习机制的内在规律，并促进 OOD 鲁棒性的预测和改进。

解决学术问题

BOSS 数据集解决了自然语言处理模型在现实世界中普遍存在的 OOD 鲁棒性问题。它通过构建一个标准化和公认的 OOD 鲁棒性评估基准，为研究人员提供了一个系统性的评估框架。BOSS 的数据集选择协议确保了 ID 和 OOD 数据集之间的显著差异和挑战性的分布变化，从而能够更准确地评估模型在不同分布下的泛化能力。此外，BOSS 还揭示了当前鲁棒性增强方法和大型语言模型在 OOD 任务上的局限性，为未来的研究提供了方向。

实际应用

BOSS 数据集的实际应用场景包括但不限于：1. 评估和改进预训练语言模型在真实世界场景下的鲁棒性；2. 分析不同模型学习机制的内在规律，并预测 OOD 鲁棒性；3. 开发和测试新的鲁棒性增强方法；4. 探索大型语言模型在不同任务上的最佳应用范式。BOSS 数据集的引入，为自然语言处理领域的研究和应用提供了重要的参考和工具。

数据集最近研究