RUPBench
收藏arXiv2024-06-17 更新2024-06-19 收录
下载链接:
https://github.com/EternityYW/RUPBench
下载链接
链接失效反馈官方服务:
资源简介:
RUPBench是由斯坦福大学和Meta Platforms, Inc.合作创建的综合性基准数据集,旨在评估大型语言模型(LLMs)在多样化推理任务中的鲁棒性。该数据集包含15个推理数据集,分为常识、算术、逻辑和知识密集型推理四大类,并引入了九种类型的文本扰动,涵盖词汇、句法和语义层面,总计365,580个扰动样本。RUPBench通过模拟真实世界输入变化,评估了如GPT-4o、Llama3等先进LLMs在原始和扰动数据集上的表现,揭示了模型在面对多样化及噪声输入时的具体挑战和改进方向。该数据集的应用领域广泛,特别是在需要高可靠性和准确性的场景,如医疗健康、法律文档分析和自动客户服务等。
RUPBench is a comprehensive benchmark dataset jointly developed by Stanford University and Meta Platforms, Inc., aiming to evaluate the robustness of large language models (LLMs) across diverse reasoning tasks. This dataset includes 15 individual reasoning datasets, categorized into four major categories: commonsense reasoning, arithmetic reasoning, logical reasoning, and knowledge-intensive reasoning. Additionally, nine types of text perturbations covering lexical, syntactic, and semantic levels are introduced, resulting in a total of 365,580 perturbed samples. RUPBench evaluates the performance of state-of-the-art LLMs such as GPT-4o and Llama3 on both original and perturbed datasets by simulating real-world input variations, and unveils the specific challenges and potential improvement directions for these models when facing diverse and noisy inputs. This dataset has broad application prospects, especially in scenarios requiring high reliability and accuracy, such as healthcare, legal document analysis, automated customer service, and other related fields.
提供机构:
斯坦福大学
创建时间:
2024-06-17
搜集汇总
数据集介绍

构建方式
RUPBench数据集的构建基于15个代表性推理数据集,涵盖常识推理、算术推理、逻辑推理和知识密集型推理四大类别。每个原始数据集经过九种文本扰动处理,包括词汇、句法和语义三个层面的变化,共计生成365,580个扰动样本。为确保扰动质量,研究团队邀请了十位专家进行人工审核,仅当60%以上专家认可时,扰动样本才会被纳入最终数据集。
特点
RUPBench的核心特点在于其系统性的扰动设计和全面的评估维度。数据集不仅包含多样化的推理任务,还通过同音词替换、拼写错误、句式重构等扰动方式模拟真实场景中的输入变异。特别值得注意的是,该基准测试引入了性能下降率(PDR)指标,能够量化模型在扰动条件下的相对性能变化,为模型鲁棒性评估提供了新的度量标准。
使用方法
使用RUPBench时,研究者可通过标准提示或思维链提示的方式评估语言模型。建议采用5-shot设置进行测试,对于算术推理任务推荐使用思维链提示策略。评估过程需同时关注原始样本和扰动样本的表现差异,通过对比准确率和PDR指标,系统分析模型在词汇理解、句法分析和语义推理等维度的鲁棒性。数据集特别适用于揭示模型在对抗性输入下的错误模式,为改进方向提供实证依据。
背景与挑战
背景概述
RUPBench是由斯坦福大学和Meta Platforms的研究团队于2024年提出的一个综合性基准测试,旨在系统评估大语言模型(LLMs)在不同推理任务中的鲁棒性。该基准整合了15个涵盖常识推理、算术推理、逻辑推理和知识密集型推理的数据集,并在词汇、句法和语义三个层面引入了九种文本扰动。研究团队包括Yuqing Wang和Yun Zhao等学者,他们通过分析GPT-4o、Llama3等前沿模型在原始和扰动数据上的表现,揭示了模型在面对多样化输入时的性能变化和错误模式。RUPBench的创建填补了现有评估框架在全面性和多样性上的不足,为提升LLMs在实际应用中的可靠性提供了重要工具。
当前挑战
RUPBench面临的挑战主要体现在两个方面:领域问题的复杂性和构建过程的技术难度。在领域问题方面,该基准需要解决LLMs对对抗性输入的脆弱性,尤其是在词汇拼写变异、句法结构变化和语义干扰等扰动下的推理能力退化问题。构建过程中的挑战包括:1)设计具有语言学合理性的多层次扰动,需平衡扰动强度与语义保真度;2)确保15个异构数据集在扰动后仍保持标注一致性;3)通过专家评审机制验证36万多个扰动样本的质量,需解决人工评估与自动化生成之间的协调问题。这些挑战使得RUPBench成为当前最全面的LLM鲁棒性评估体系之一。
常用场景
经典使用场景
RUPBench作为评估大型语言模型(LLM)鲁棒性的综合基准,广泛应用于自然语言处理领域的研究中。其经典使用场景包括在多种推理任务(如常识推理、算术推理、逻辑推理和知识密集型推理)中引入九种文本扰动(词汇、句法和语义层面),以系统测试模型在对抗性输入下的表现。通过比较模型在原始数据和扰动数据上的性能差异,研究者能够深入分析模型在不同扰动类型下的脆弱性,从而揭示其潜在弱点。
解决学术问题
RUPBench解决了LLM鲁棒性评估中缺乏系统性框架的关键问题。传统基准如AdvGLUE仅针对有限任务或扰动类型,而RUPBench通过整合15个推理数据集和跨层次的扰动策略,填补了多维度评估的空白。其意义在于首次量化了模型规模与鲁棒性的正相关性(如GPT-4o平均性能下降率10.0%显著低于Gemma-2B的21.2%),并通过人工标注识别出四大推理任务中的典型错误模式(如常识推理中的语境误解占32.7%),为改进模型抗干扰能力提供了明确方向。
衍生相关工作
RUPBench的发布催生了多个延伸研究:其一,Wang等人(2024)基于其扰动框架开发了医疗领域专用测试集FAIRHR-CLP;其二,Zhu等(2023)受红鲱鱼扰动启发提出了PromptBench对抗提示评估工具;其三,Meta团队在Llama3后续版本中采用RUPBench的复合变异扰动进行压力测试。这些工作共同推动了鲁棒性评估从通用向垂直领域的细化发展,并促进了如Phi-3等轻量级模型的抗干扰训练方法创新。
以上内容由遇见数据集搜集并总结生成



