five

PROVISER

收藏
arXiv2026-03-09 更新2026-03-11 收录
下载链接:
https://github.com/Conditional-NLI/PROVISER
下载链接
链接失效反馈
官方服务:
资源简介:
PROVISER是由卡尔顿大学和渥太华大学联合构建的首个针对语言学中'proviso问题'的诊断性数据集,包含约8,500条条件句与预设关系的自然语言推理样本。数据集基于CONFER基准扩展,通过结构变异、触发词-假设关联度及上下文关系等维度系统化构造,涵盖依存性(DEP)与独立性(IND)两类条件句案例。其核心目标是评估语言模型对条件句中预设投射的处理机制,为语用推理和形式语义学研究提供计算化评估框架,推动语言模型在语境依赖性意义理解方面的进展。

PROVISER is the first diagnostic dataset targeting the 'proviso problem' in linguistics, jointly constructed by Carleton University and the University of Ottawa. It contains approximately 8,500 natural language inference samples focusing on the relationship between conditional sentences and presuppositions. The dataset is systematically constructed based on the CONFER benchmark across dimensions including structural variation, trigger-hypothesis association degree, and contextual relations, covering two types of conditional sentence cases: dependent (DEP) and independent (IND). Its core objective is to evaluate the processing mechanisms of language models regarding presupposition projection in conditional sentences, provide a computational evaluation framework for pragmatic reasoning and formal semantics research, and promote advancements in language models' understanding of context-dependent meaning.
提供机构:
卡尔顿大学; 渥太华大学
创建时间:
2026-03-09
原始信息汇总

PROVISER 数据集概述

数据集基本信息

  • 数据集名称:PROVISER
  • 核心用途:用于评估条件句中预设推理(proviso问题)的诊断性自然语言推理(NLI)数据集。
  • 数据规模:包含8,500个示例。
  • 数据特点:示例具有受控的语言变体。

数据集内容与结构

  • 数据集旨在通过条件句的变体,专门诊断模型对预设(presupposition)的推理能力。
  • 数据示例经过设计,包含系统的语言变化控制。

相关资源与实验

  • 数据集创建scripts/Dataset_Creation 子文件夹包含用于生成“CONFER挑战子集”的脚本。
  • 实验脚本:包含用于运行零样本评估(Zero-Shot Evaluation)以及子集2、子集3、子集4实验的脚本。
  • 可解释性分析Interpret 文件夹包含用于子集1-3的Integrated Gradients方法的PyTorch实现(源自 https://github.com/koren-v/Interpret.git)。
  • 结果处理Results_Processing 子文件夹包含用于处理结果和生成可视化图表的脚本。

使用说明

  • 使用前需根据实际情况更新数据集的文件路径。
  • 需要用户自行添加HuggingFace和OpenAI的访问令牌。
搜集汇总
数据集介绍
main_image_url
构建方式
在语用学领域,预设投射问题长期困扰着形式语义理论与人类实际解读之间的分歧。PROVISER数据集的构建以CONFER数据集为基础,精心选取了900个条件句对,其前提遵循“若A,则Bp”的形式,其中p是B的预设。通过系统性的扩展策略,数据集规模增至约8500个示例,涵盖了结构变异、触发词与假设之间的语义关联度调整以及前提级上下文修改等多个维度。每个句子对均标注了基于人类判断的蕴含标签,并额外添加了理论标签,以反映形式语义学所预测的条件性预设。这种构建方式旨在通过控制语言变量的实验设计,深入探究语言模型在处理条件句中预设时的认知机制。
使用方法
使用PROVISER数据集时,研究者可将其视为一个自然语言推理任务,评估模型在条件句预设投射上的表现。典型流程包括零样本评估与微调后测试,通过对比模型预测与人类标签及理论标签的一致性,衡量其语用对齐程度。更重要的是,结合可解释性分析方法,如积分梯度与注意力机制,可以深入探查模型决策所依赖的语言特征,识别其是否真正关注预设触发词或仅利用表面结构线索。该数据集适用于多种模型架构的评估,旨在推动对语言模型语用能力与上下文依赖意义理解的系统性诊断。
背景与挑战
背景概述
PROVISER数据集由加拿大卡尔顿大学和渥太华大学的研究团队于2026年创建,旨在系统性地探究语言模型如何处理语用学中的‘但书问题’。该问题揭示了条件句中预设投射在形式语义学理论与人类实际解读之间的系统性分歧,是自然语言理解中一个长期悬而未决的核心难题。研究团队将这一现象重构为自然语言推理任务,构建了首个针对条件句预设投射的诊断性评估框架。该数据集通过约8500个包含结构、语义及语境变异的例句,为评估语言模型的语用推理能力提供了重要基准,推动了计算语言学与形式语义学的交叉研究,对理解大型语言模型在语境依赖意义处理上的局限性具有深远影响。
当前挑战
PROVISER数据集所针对的核心领域挑战在于,如何让语言模型超越浅层的模式匹配,真正理解条件句中预设的语义投射与语用解读之间的复杂关系。具体而言,模型需要区分形式语义理论预测的条件性预设与人类实际采用的无条件性预设,这要求其具备深层的语义与语用推理能力。在数据集构建过程中,研究团队面临多重挑战:一是如何将抽象的‘但书问题’操作化为可计算的自然语言推理任务,并设计出能够系统探测模型推理机制的结构化变体;二是需要精确控制例句中触发词与假设之间的语义关联度、条件句各组成部分的逻辑关系以及句法结构的复杂性,以确保诊断的有效性;三是需建立包含人类标注与理论预测的双重评估标准,以揭示模型行为与理论或人类判断之间的对齐程度。
常用场景
经典使用场景
在语用学与计算语言学的交叉领域,PROVISER数据集被广泛用于评估语言模型对条件句中预设投射现象的处理能力。该数据集通过将经典的‘但书问题’转化为自然语言推理任务,构建了包含结构、语义及语境变体的约8500个例句对。研究者通常利用该数据集,系统探究模型在条件句环境下是否遵循形式语义理论预测的条件性预设,抑或倾向于人类常见的无条件性预设解读,从而揭示模型在语用推理层面的内在机制。
解决学术问题
PROVISER数据集主要针对语用学中长期悬而未决的‘但书问题’,即条件句中预设的理论预测与人类实际解读之间的分歧。该数据集通过精心设计的诊断性例句,使得研究者能够首次在计算框架下系统评估语言模型对预设投射的处理方式。它不仅解决了如何量化模型语用推理能力的难题,还通过可解释性分析揭示了模型依赖表层模式匹配而非深层语义理解的局限性,为推进语言模型在语境依赖意义理解方面的研究提供了关键方法论基础。
实际应用
在实际应用中,PROVISER数据集为开发更可靠、具备语用意识的自然语言处理系统提供了重要的评估基准。例如,在对话系统、机器翻译及文本蕴含识别等任务中,模型对预设等隐含意义的准确理解直接影响其交互的自然性与推理的稳健性。通过使用该数据集进行诊断与优化,工程师能够识别并修正模型在复杂条件结构下的推理偏差,从而提升系统在真实语境中处理隐含信息与逻辑关系的性能,推动更人性化人工智能应用的发展。
数据集最近研究
最新研究方向
在自然语言处理领域,PROVISER数据集的推出标志着语用推理评估进入了诊断性分析的新阶段。该数据集聚焦于条件句中的预设投射问题,通过构建包含结构、语义和语境变异的8500个示例,为语言模型在语用能力评估方面提供了首个系统性诊断框架。前沿研究揭示,尽管RoBERTa、DeBERTa等模型在准确率指标上与人类判断高度一致,但可解释性分析表明其依赖表层模式匹配而非深层语义推理。当前热点集中于探究语言模型对预设触发词的语义敏感性缺陷,以及微调过程中产生的虚假相关性如何影响模型对复杂条件结构的处理能力。这一研究方向对推动语言模型超越浅层统计学习、实现真正语用理解具有关键意义,为构建具备人类级语境推理能力的智能系统奠定了方法论基础。
相关研究论文
  • 1
    Do Language Models Know Theo Has a Wife? Investigating the Proviso Problem卡尔顿大学; 渥太华大学 · 2026年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作