PROVISER

Name: PROVISER
Creator: 卡尔顿大学; 渥太华大学
Published: 2026-03-09 21:21:56
License: 暂无描述

arXiv2026-03-09 更新2026-03-11 收录

下载链接：

https://github.com/Conditional-NLI/PROVISER

下载链接

链接失效反馈

官方服务：

资源简介：

PROVISER是由卡尔顿大学和渥太华大学联合构建的首个针对语言学中'proviso问题'的诊断性数据集，包含约8,500条条件句与预设关系的自然语言推理样本。数据集基于CONFER基准扩展，通过结构变异、触发词-假设关联度及上下文关系等维度系统化构造，涵盖依存性(DEP)与独立性(IND)两类条件句案例。其核心目标是评估语言模型对条件句中预设投射的处理机制，为语用推理和形式语义学研究提供计算化评估框架，推动语言模型在语境依赖性意义理解方面的进展。

PROVISER is the first diagnostic dataset targeting the 'proviso problem' in linguistics, jointly constructed by Carleton University and the University of Ottawa. It contains approximately 8,500 natural language inference samples focusing on the relationship between conditional sentences and presuppositions. The dataset is systematically constructed based on the CONFER benchmark across dimensions including structural variation, trigger-hypothesis association degree, and contextual relations, covering two types of conditional sentence cases: dependent (DEP) and independent (IND). Its core objective is to evaluate the processing mechanisms of language models regarding presupposition projection in conditional sentences, provide a computational evaluation framework for pragmatic reasoning and formal semantics research, and promote advancements in language models' understanding of context-dependent meaning.

提供机构：

卡尔顿大学; 渥太华大学

创建时间：

2026-03-09

原始信息汇总

PROVISER 数据集概述

数据集基本信息

数据集名称：PROVISER
核心用途：用于评估条件句中预设推理（proviso问题）的诊断性自然语言推理（NLI）数据集。
数据规模：包含8,500个示例。
数据特点：示例具有受控的语言变体。

数据集内容与结构

数据集旨在通过条件句的变体，专门诊断模型对预设（presupposition）的推理能力。
数据示例经过设计，包含系统的语言变化控制。

使用说明

使用前需根据实际情况更新数据集的文件路径。
需要用户自行添加HuggingFace和OpenAI的访问令牌。

搜集汇总

数据集介绍

构建方式

在语用学领域，预设投射问题长期困扰着形式语义理论与人类实际解读之间的分歧。PROVISER数据集的构建以CONFER数据集为基础，精心选取了900个条件句对，其前提遵循“若A，则Bp”的形式，其中p是B的预设。通过系统性的扩展策略，数据集规模增至约8500个示例，涵盖了结构变异、触发词与假设之间的语义关联度调整以及前提级上下文修改等多个维度。每个句子对均标注了基于人类判断的蕴含标签，并额外添加了理论标签，以反映形式语义学所预测的条件性预设。这种构建方式旨在通过控制语言变量的实验设计，深入探究语言模型在处理条件句中预设时的认知机制。

使用方法

使用PROVISER数据集时，研究者可将其视为一个自然语言推理任务，评估模型在条件句预设投射上的表现。典型流程包括零样本评估与微调后测试，通过对比模型预测与人类标签及理论标签的一致性，衡量其语用对齐程度。更重要的是，结合可解释性分析方法，如积分梯度与注意力机制，可以深入探查模型决策所依赖的语言特征，识别其是否真正关注预设触发词或仅利用表面结构线索。该数据集适用于多种模型架构的评估，旨在推动对语言模型语用能力与上下文依赖意义理解的系统性诊断。

背景与挑战

背景概述

PROVISER数据集由加拿大卡尔顿大学和渥太华大学的研究团队于2026年创建，旨在系统性地探究语言模型如何处理语用学中的‘但书问题’。该问题揭示了条件句中预设投射在形式语义学理论与人类实际解读之间的系统性分歧，是自然语言理解中一个长期悬而未决的核心难题。研究团队将这一现象重构为自然语言推理任务，构建了首个针对条件句预设投射的诊断性评估框架。该数据集通过约8500个包含结构、语义及语境变异的例句，为评估语言模型的语用推理能力提供了重要基准，推动了计算语言学与形式语义学的交叉研究，对理解大型语言模型在语境依赖意义处理上的局限性具有深远影响。

当前挑战

PROVISER数据集所针对的核心领域挑战在于，如何让语言模型超越浅层的模式匹配，真正理解条件句中预设的语义投射与语用解读之间的复杂关系。具体而言，模型需要区分形式语义理论预测的条件性预设与人类实际采用的无条件性预设，这要求其具备深层的语义与语用推理能力。在数据集构建过程中，研究团队面临多重挑战：一是如何将抽象的‘但书问题’操作化为可计算的自然语言推理任务，并设计出能够系统探测模型推理机制的结构化变体；二是需要精确控制例句中触发词与假设之间的语义关联度、条件句各组成部分的逻辑关系以及句法结构的复杂性，以确保诊断的有效性；三是需建立包含人类标注与理论预测的双重评估标准，以揭示模型行为与理论或人类判断之间的对齐程度。

常用场景

经典使用场景

在语用学与计算语言学的交叉领域，PROVISER数据集被广泛用于评估语言模型对条件句中预设投射现象的处理能力。该数据集通过将经典的‘但书问题’转化为自然语言推理任务，构建了包含结构、语义及语境变体的约8500个例句对。研究者通常利用该数据集，系统探究模型在条件句环境下是否遵循形式语义理论预测的条件性预设，抑或倾向于人类常见的无条件性预设解读，从而揭示模型在语用推理层面的内在机制。

解决学术问题

PROVISER数据集主要针对语用学中长期悬而未决的‘但书问题’，即条件句中预设的理论预测与人类实际解读之间的分歧。该数据集通过精心设计的诊断性例句，使得研究者能够首次在计算框架下系统评估语言模型对预设投射的处理方式。它不仅解决了如何量化模型语用推理能力的难题，还通过可解释性分析揭示了模型依赖表层模式匹配而非深层语义理解的局限性，为推进语言模型在语境依赖意义理解方面的研究提供了关键方法论基础。

实际应用

在实际应用中，PROVISER数据集为开发更可靠、具备语用意识的自然语言处理系统提供了重要的评估基准。例如，在对话系统、机器翻译及文本蕴含识别等任务中，模型对预设等隐含意义的准确理解直接影响其交互的自然性与推理的稳健性。通过使用该数据集进行诊断与优化，工程师能够识别并修正模型在复杂条件结构下的推理偏差，从而提升系统在真实语境中处理隐含信息与逻辑关系的性能，推动更人性化人工智能应用的发展。

数据集最近研究

PROVISER

PROVISER 数据集概述

数据集基本信息

数据集内容与结构

相关资源与实验

使用说明