WAFER-QA
收藏Hugging Face2025-06-12 更新2025-06-13 收录
下载链接:
https://huggingface.co/datasets/Salesforce/WAFER-QA
下载链接
链接失效反馈官方服务:
资源简介:
WAFER-QA(Web-Augmented Feedback for Evaluating Reasoning)是一个用于评估LLM代理在面对事实支持的欺骗性反馈时的鲁棒性的基准数据集。数据集包含两个部分:有上下文的WAFER-QA (C)和无上下文的WAFER-QA (N)。有上下文的部分来源于SearchQA、NewsQA、HotpotQA、DROP、TriviaQA、RelationExtraction和NaturalQuestions,而无上下文的部分来源于ARC-Challenge、GPQA Diamond和MMLU。
提供机构:
Salesforce
创建时间:
2025-06-11
搜集汇总
数据集介绍

构建方式
在人工智能评测领域,WAFER-QA数据集通过精心设计的构建流程,整合了多个权威问答数据源。该数据集从SearchQA、NewsQA等上下文问答数据集抽取样本形成上下文划分,同时从ARC-Challenge、MMLU等非上下文数据集中筛选问题构成非上下文划分。每个样本均经过严格的证据检索与验证流程,确保替代答案具备网络证据支持,并标注原始数据来源及多选项结构。
特点
WAFER-QA数据集的核心特征体现在其独特的对抗性评估框架设计。数据集包含1282个样本,分为574个上下文样本和708个非上下文样本,每个样本均配备经过验证的网络证据支持替代答案。其结构化字段涵盖唯一标识符、问题文本、标准答案、反证据标记及多选项设计,特别适用于测试大语言模型在面对事实性欺骗反馈时的鲁棒性。数据来源覆盖11个主流问答数据集,确保了评估任务的多样性和广泛性。
使用方法
研究人员可通过HuggingFace数据集库直接加载WAFER-QA数据集进行实验分析。使用load_dataset函数调用"Salesforce/WAFER-QA"即可获取包含上下文和非上下文两个划分的完整数据集。每个划分提供标准化的字段访问接口,包括问题、答案、证据等关键信息。该数据集主要应用于智能代理的对抗性测试场景,通过分析模型在欺骗性证据干扰下的应答表现,为提升智能系统的事实核查和抗干扰能力提供量化评估基础。
背景与挑战
背景概述
WAFER-QA数据集由Salesforce研究院于2024年推出,旨在评估大型语言模型代理在面对事实性支持的欺骗性反馈时的韧性。该数据集构建于多源权威问答基准之上,涵盖SearchQA、NewsQA等上下文问答任务及ARC-Challenge、MMLU等非上下文任务。其核心研究在于揭示智能体在复杂信息环境中对矛盾证据的判别能力,为增强AI系统的鲁棒性和可靠性提供了关键实验平台,对推进可信人工智能发展具有显著影响力。
当前挑战
该数据集首要解决领域挑战在于如何精准评估智能体对矛盾证据的辨识能力,尤其是在网络检索证据支持错误答案的欺骗性场景下。构建过程中需克服多源数据融合的一致性难题,包括异构数据格式的统一、证据来源的可信度验证,以及对抗性样本的平衡性设计。此外,确保替代答案既具有表面合理性又具备实际证据支持,需精密设计证据检索与标注流程,以避免引入偏差或逻辑谬误。
常用场景
经典使用场景
在自然语言处理领域,WAFER-QA数据集主要用于评估语言模型代理对事实性欺骗反馈的抵抗能力。该数据集通过提供网络检索证据支持的替代答案,模拟真实环境中模型可能遇到的误导性信息,为研究者构建鲁棒性测试框架提供了重要基础。其经典应用场景包括多轮对话系统的抗干扰测试和知识增强型代理的可靠性验证,特别是在需要处理外部知识源的复杂问答场景中。
衍生相关工作
基于WAFER-QA数据集,研究者已开展多项重要工作,包括开发新型对抗训练框架和证据验证机制。这些衍生研究显著推进了模型鲁棒性评估方法的创新,特别是在多源信息融合和矛盾检测方面取得了突破性进展。相关工作还促进了跨模态推理系统的开发,为构建下一代可信人工智能系统奠定了坚实基础。
数据集最近研究
最新研究方向
在智能体对抗性评估领域,WAFER-QA数据集正推动对大型语言模型抗欺骗性反馈能力的前沿探索。研究者们借助其独特的反事实证据架构,深入分析智能体在存在网络支持错误答案时的推理脆弱性。该数据集通过融合多源问答数据与真实网络证据,为评估智能体工作流的鲁棒性提供了重要基准,相关研究已延伸到多模态推理安全和对抗性训练策略优化,对构建可靠的人机协作系统具有显著意义。
以上内容由遇见数据集搜集并总结生成



