five

BOSS

收藏
arXiv2023-10-26 更新2024-07-30 收录
下载链接:
https://github.com/lifan-yuan/OOD_NLP
下载链接
链接失效反馈
资源简介:
BOSS是一个用于评估自然语言处理中分布外鲁棒性的基准套件,涵盖5个任务和20个数据集。

BOSS is a benchmark suite for evaluating out-of-distribution robustness in natural language processing, covering 5 tasks and 20 datasets.
创建时间:
2023-06-08
原始信息汇总

数据集概述

数据集内容

  • 任务覆盖:包含五个代表性的NLP任务。
  • 数据集类型:每个任务包含一个ID(In-Distribution)数据集和三个对应的OOD(Out-of-Distribution)数据集。
  • 数据下载:数据集可从此处下载,并放置在./datasets/process目录下。

数据集访问

  • 特殊要求:访问Implicit Hate和ToxiGen数据集需先填写相应表格。

数据集选择原则

  • 原则1:ID数据集应提供足够的知识以供模型处理任务。
  • 原则2:同一任务内的数据集应来自不同的分布,以进行全面的评估。
  • 原则3:OOD数据集应具有挑战性,以准确评估OOD鲁棒性的进展。

数据集处理与选择

  • 原始数据下载:参考./datasets目录下的markdown文件获取原始数据集,并按任务组织在./datasets/raw目录下。

  • 数据处理:运行./src/dataset_processing目录下的代码处理数据集,例如处理amazon数据集的命令为:

    python ./src/dataset_processing/SentimentAnalysis/amazon.py

  • 数据集统计:处理完所有候选数据集后,运行python ./src/dataset_selection/stat.py获取数据集统计信息。

  • 语义相似度计算:运行python ./src/dataset_selection/simcse.py计算数据集对之间的语义相似度。

  • 模型训练与测试:在ID数据集上训练模型并在对应的OOD数据集上测试,通过运行sh ./scripts/run_method.sh实现。

数据集分析

  • ID-OOD性能分析:通过调整模型规模、训练步数、可用训练样本和可调参数四个因素,分析PLMs在vanilla fine-tuning下的ID-OOD性能关系。
  • 实验运行命令:参考./scripts/run_shots.sh./scripts/run_steps.sh./scripts/run_peft.sh文件。

数据集评估

  • 鲁棒性增强方法评估:运行sh ./scripts/run_method.sh评估现有鲁棒性增强方法的效果。
  • LLMs评估:运行python llm.py --model_name MODEL_NAME --setting SETTING评估LLMs在基准上的性能。
    • MODEL_NAME可选值:turbodavinci3llama
    • SETTING可选值:zero-shotin-contextood-in-context
搜集汇总
数据集介绍
main_image_url
构建方式
BOSS 数据集的构建遵循一套精心设计的协议,旨在解决先前研究中数据分布偏移设置不足的问题。该协议包含三个基本原则:ID 数据集应具有足够大的规模和多样性,以涵盖全面的知识;OOD 数据集应来自不同的分布,并且在文本来源和语义上与 ID 数据集具有差异性;数据分布偏移应具有挑战性,以确保基准测试的长期有效性。基于此协议,BOSS 数据集涵盖了五个任务和 20 个数据集,包括情感分析、毒性检测、自然语言推理、命名实体识别和抽取式问答等任务。
使用方法
使用 BOSS 数据集进行 OOD 鲁棒性评估时,需要按照以下步骤进行:1. 选择合适的 ID 数据集和 OOD 数据集:根据 BOSS 数据集中的任务类型,选择合适的 ID 数据集和 OOD 数据集进行评估。2. 训练和评估模型:使用所选数据集训练模型,并在 ID 和 OOD 数据集上评估模型的性能。3. 分析 ID 和 OOD 性能相关性:使用 BOSS 数据集分析模型的 ID 和 OOD 性能之间的相关性,以了解模型的学习机制和鲁棒性。4. 评估鲁棒性增强方法:使用 BOSS 数据集评估现有的鲁棒性增强方法,以评估其有效性和适用性。5. 评估大型语言模型:使用 BOSS 数据集评估大型语言模型在 OOD 场景下的性能,并探索不同的适应范式。
背景与挑战
背景概述
BOSS 数据集是针对自然语言处理 (NLP) 领域中模型在分布外 (OOD) 环境下的鲁棒性评估而构建的基准测试套件。该数据集由清华大学 NLP 组、伊利诺伊大学香槟分校、中国科学院大学和腾讯公司的研究人员共同创建,并于 2023 年 10 月 26 日在 arXiv 上发布了相关论文。BOSS 数据集旨在解决现有 OOD 评估基准的不足,例如数据集选择缺乏挑战性和分布偏移设置不足等问题。该数据集涵盖了 5 个 NLP 任务(情感分析、毒性检测、自然语言推理、命名实体识别和摘要问答)和 20 个数据集,旨在提供一个全面且具有挑战性的 OOD 鲁棒性评估平台。通过对预训练语言模型进行一系列实验,BOSS 数据集揭示了模型在 ID 和 OOD 数据集上的性能相关性,并评估了现有鲁棒性增强方法和大型语言模型 (LLM) 的有效性。
当前挑战
BOSS 数据集所面临的挑战主要包括:1) 如何构建一个更具挑战性的 OOD 评估基准,以更准确地评估模型的鲁棒性;2) 如何有效地提高模型在 OOD 环境下的泛化能力;3) 如何更好地理解模型在 ID 和 OOD 环境下的学习机制,以及如何利用这些理解来预测模型的 OOD 鲁棒性;4) 如何评估和比较现有的鲁棒性增强方法和 LLM 的有效性;5) 如何开发新的技术和方法,以提高模型在 OOD 环境下的鲁棒性。
常用场景
经典使用场景
BOSS 数据集被广泛应用于评估和提升自然语言处理模型在非分布内(OOD)数据上的鲁棒性。它为研究人员提供了一个包含 5 个任务和 20 个数据集的基准测试套件,用于分析预训练语言模型在不同分布变化下的表现。通过对模型在 ID 和 OOD 数据集上的性能进行关联分析,BOSS 有助于揭示模型学习机制的内在规律,并促进 OOD 鲁棒性的预测和改进。
解决学术问题
BOSS 数据集解决了自然语言处理模型在现实世界中普遍存在的 OOD 鲁棒性问题。它通过构建一个标准化和公认的 OOD 鲁棒性评估基准,为研究人员提供了一个系统性的评估框架。BOSS 的数据集选择协议确保了 ID 和 OOD 数据集之间的显著差异和挑战性的分布变化,从而能够更准确地评估模型在不同分布下的泛化能力。此外,BOSS 还揭示了当前鲁棒性增强方法和大型语言模型在 OOD 任务上的局限性,为未来的研究提供了方向。
实际应用
BOSS 数据集的实际应用场景包括但不限于:1. 评估和改进预训练语言模型在真实世界场景下的鲁棒性;2. 分析不同模型学习机制的内在规律,并预测 OOD 鲁棒性;3. 开发和测试新的鲁棒性增强方法;4. 探索大型语言模型在不同任务上的最佳应用范式。BOSS 数据集的引入,为自然语言处理领域的研究和应用提供了重要的参考和工具。
数据集最近研究
最新研究方向
本文重新审视了NLP领域关于OOD鲁棒性的研究,发现先前研究中分布偏移设置通常缺乏足够的挑战性,阻碍了对OOD鲁棒性的准确评估。为解决这些问题,作者提出了一个确保清晰区分和挑战性分布偏移的基准构建协议。随后,作者介绍了BOSS,一个用于OOD鲁棒性评估的基准套件,包括5个任务和20个数据集。基于BOSS,作者对预训练语言模型进行了一系列实验,以分析和评估OOD鲁棒性。首先,对于常规微调,作者检验了ID和OOD性能之间的关系,并确定了三种典型类型,揭示了内部学习机制,这可能有助于预测OOD鲁棒性,并与ID数据集上的进步相关。然后,作者在BOSS上评估了5种经典方法,发现尽管在某些情况下表现出一定的有效性,但它们并没有比常规微调带来显著的改进。此外,作者评估了具有各种适应范式的5个LLM,发现当有足够的ID数据可用时,微调特定领域的模型在ID示例上明显优于LLM。然而,在OOD示例的情况下,优先考虑具有上下文学习的LLM可以获得更好的结果。作者发现,无论是微调的小型模型还是LLM,在有效地处理下游任务方面都面临着挑战。
相关研究论文
  • 1
    Revisiting Out-of-distribution Robustness in NLP: Benchmark, Analysis, and LLMs Evaluations · 2023年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作