WinoWhat
收藏arXiv2025-03-31 更新2025-04-03 收录
下载链接:
http://arxiv.org/abs/2503.23779v1
下载链接
链接失效反馈官方服务:
资源简介:
WinoWhat是一个并行语料库,由安特卫普大学CLiPS中心创建,对WinoGrande验证集中的每个句子进行改写,使得‘_’符号位于句子的末尾。这个数据集旨在测试大型语言模型在改写情况下的性能鲁棒性,包含1267个实例,是研究常见推理任务中模型性能的一个新资源。
WinoWhat is a parallel corpus created by the CLiPS Center at the University of Antwerp. It paraphrases each sentence in the WinoGrande validation set such that the '_' symbol appears at the end of the sentence. This dataset aims to test the performance robustness of large language models (LLMs) under paraphrasing scenarios, containing 1267 instances and serving as a new resource for researching model performance in common reasoning tasks.
提供机构:
安特卫普大学CLiPS中心
创建时间:
2025-03-31
搜集汇总
数据集介绍

构建方式
WinoWhat数据集的构建基于WinoGrande验证集,通过多步骤的改写过程实现。首先,研究团队利用五种先进的生成模型(包括GPT-4o、Gemini 2.0等)对原始句子进行改写,确保填空标记'_'位于句末。随后,通过人工校验筛选最佳改写版本,并对433个实例进行了手动调整以保持语义一致性。最终保留的1,185个实例经过严格的语法和逻辑验证,移除了82个不符合WinoGrande基准要求的样本。该过程采用半自动化流程,结合模型生成与人工校验,确保了数据质量与任务适配性。
特点
WinoWhat的核心特点体现在其平行语料结构与细粒度常识分类体系上。数据集包含原始WinoGrande验证集及其改写版本,形成双向对照。每个实例标注了解决任务所需的常识类别,涵盖物理、社会、数值、时空五大维度,通过GPT-4o生成的推理步骤进行多轮标注(Kappa=0.64)。特别值得注意的是,改写后的句子结构更适配解码器模型,通过将填空位置固定于句末,消除了原评估方法中后续词序对结果的干扰。数据分布分析显示物理和社会类别占比显著,反映了自然语言中常识推理的典型分布特征。
使用方法
该数据集支持三种主要研究范式:首先,通过对比模型在原始与改写版本上的表现差异,可检验模型对表面模式的依赖程度;其次,基于常识分类的细粒度分析能识别模型特定知识缺陷,如实验显示所有模型在时间推理类别表现最差;最后,结合污染检测方法(如n-gram匹配)可评估记忆效应对性能的影响。使用时建议采用部分评估指标,计算选项词元的对数似然和而非后续词序概率。配套发布的标注工具链包含改写提示模板与分类流程,支持研究者扩展至其他语言或任务场景。
背景与挑战
背景概述
WinoWhat数据集由安特卫普大学CLiPS研究团队于2025年提出,旨在通过构建WinoGrande验证集的平行改写语料库,深入探究大语言模型在常识推理任务中的真实表现。该数据集源于对经典Winograd模式挑战的扩展研究,通过将原句中的填空标记'_'置于句末的创新设计,有效解决了传统解码器模型在核心指代消解任务中的评估偏差问题。作为自然语言理解领域的重要基准,WinoWhat通过细粒度的常识知识分类(物理、社会、数值、时空等五类),为评估模型推理能力提供了多维度的分析框架,其揭示的模型性能下降现象对当前LLM评估方法学提出了根本性质疑。
当前挑战
WinoWhat面临的核心挑战体现在两个维度:在领域问题层面,数据集需解决自然语言理解中常识推理的评估难题,特别是克服模型通过表层模式识别而非真实推理获取高分的评估缺陷;在构建过程中,研究者需应对句法改写保持语义一致性的技术挑战,包括处理32.7%的实例需要人工修正改写结果的质量控制问题,以及平衡不同常识类别样本分布(物理类占44.3%、社会类占38.6%)带来的标注复杂度。值得注意的是,基准污染检测显示仅1.7%的实例存在于训练数据中,但所有模型在改写后性能平均下降12.4%,这表明当前评估体系可能系统性高估了模型的真实推理能力。
常用场景
经典使用场景
WinoWhat数据集作为WinoGrande验证集的平行语料库,主要用于评估大型语言模型(LLMs)在常识推理任务中的表现。通过将每个WinoGrande实例进行改写,使得填空标记位于句末,这一设计使得解码器模型能够更自然地处理任务,同时测试模型对改写的鲁棒性。该数据集在自然语言处理领域被广泛用于衡量模型是否依赖表面模式或数据记忆,而非真正的常识推理能力。
解决学术问题
WinoWhat数据集解决了评估LLMs常识推理能力的核心学术问题。传统基准测试如WinoGrande可能存在模型依赖数据记忆或表面模式的风险,而WinoWhat通过改写句子结构,迫使模型进行更深层次的推理。此外,数据集还标注了常识知识类别(如物理、社会、数值、时空等),为研究者提供了细粒度的错误分析工具,揭示了模型在不同常识类型上的强弱项。
衍生相关工作
WinoWhat数据集衍生了一系列相关研究,包括对模型记忆效应的深入分析(如匹配训练数据中的基准实例)、常识类别的细粒度评估方法,以及针对不同语言和文化背景的扩展工作。此外,该数据集还启发了对抗性改写技术的研究,以进一步测试模型的泛化能力。这些工作共同推动了常识推理评估领域的发展,为构建更可靠的NLP系统提供了理论基础。
以上内容由遇见数据集搜集并总结生成



