CONFER
收藏arXiv2025-06-06 更新2025-06-10 收录
下载链接:
https://github.com/Conditional-NLI/CONFER
下载链接
链接失效反馈官方服务:
资源简介:
CONFER是一个专门用于评估自然语言推理模型在条件推理和预设方面的性能的数据集。该数据集由18,000个句子对组成,通过半自动方式生成,使用语言学设计的模板来创建一个规模大、词汇多样化且严格控制的数据集,专注于特定类型的条件句子。数据集的生成过程包括半自动句子生成、预设投影嵌入以及自然语言推理数据集的构建和标注。CONFER数据集的创建旨在解决NLI模型在处理复杂条件结构,特别是预设推理方面的不足,为提高模型在预设推理方面的性能提供了新的思路。
CONFER is a dedicated dataset for evaluating the performance of natural language inference (NLI) models on conditional reasoning and presupposition. This dataset consists of 18,000 sentence pairs, generated semi-automatically using linguistically designed templates to create a large-scale, lexically diverse and strictly controlled dataset focused on specific types of conditional sentences. The dataset generation process includes semi-automatic sentence generation, presupposition projection embedding, as well as the construction and annotation of natural language inference datasets. The creation of the CONFER dataset aims to address the limitations of NLI models when handling complex conditional structures, especially presupposition-based reasoning, and provides new insights for improving model performance in presupposition reasoning tasks.
提供机构:
卡尔顿大学, 渥太华大学
创建时间:
2025-06-06
原始信息汇总
CONFER数据集概述
数据集简介
- 名称:CONFER: A Dataset for Presupposition and CONditional InFERence Evaluation
- 类型:自然语言推理(NLI)格式的句子对数据集
- 规模:18,000个句子对
- 目的:研究语言模型如何处理特定类型条件句中的预设
数据集内容
- 结构:每个示例包含前提-假设对和黄金标签(
E,C, 或N) - 标签说明:
E= 蕴含(Entailment)C= 矛盾(Contradiction)N= 中性(Neutral)
- 示例:
类型 触发词 前提 假设 标签 1 again Sam believes that if Nadia adopted a cat, she will never adopt a cat again. Nadia adopted a cat. N 2 possessive If Marley has an outgoing friend, she travels with her friend. Marley has a friend. N
获取方式
- Hugging Face数据集中心:https://huggingface.co/datasets/ConditionalNLI/CONFER
相关论文
- 标题:Let’s CONFER: A Dataset for Evaluating Natural Language Inference Models on CONditional InFERence and Presupposition
- 链接:https://caiac.pubpub.org/pub/keh8ij01/release/1
引用格式
bibtex @inproceedings{azin-etal-2025-confer, author = {Azin, Tara and Dumitrescu, Daniel and Inkpen, Diana and Singh, Raj}, year = {2025}, title = {Let’s CONFER: A dataset for evaluating natural language inference models on conditional inference and presupposition}, booktitle = {Proceedings of the Canadian Conference on Artificial Intelligence}, url = {https://caiac.pubpub.org/pub/keh8ij01} }
许可协议
- 类型:Creative Commons Attribution 4.0 International License (CC BY 4.0)
- 链接:https://creativecommons.org/licenses/by/4.0/
搜集汇总
数据集介绍

构建方式
CONFER数据集的构建采用了半自动化的方法,结合了语言学专家设计的模板和OpenAI的GPT-3.5模型进行句子生成。通过精心设计的提示模板,确保了生成的句子在句法和词汇上的多样性。数据集包含18,000个句子对,涵盖了五种不同类型的条件句,每种类型均通过两种预设触发词(如‘again’和所有格结构)进行平衡。生成的句子经过语言学专家的手动审核,确保其语法正确性和语义合理性。
特点
CONFER数据集专注于条件句中的预设推理,填补了现有自然语言推理(NLI)数据集的空白。其独特之处在于系统地涵盖了五种条件句类型,每种类型均通过不同的逻辑关系(如等价、非对称蕴含等)体现预设的复杂性。数据集还通过嵌入否定、疑问和事实性语境,测试预设在不同环境下的持续性。此外,数据集的标注由语言学专家完成,标注一致性高达99.86%,确保了高质量的标准。
使用方法
CONFER数据集可用于评估NLI模型和大型语言模型(LLMs)在条件句预设推理上的表现。用户可通过两种主要方式使用该数据集:一是直接测试预训练模型(如RoBERTa、DeBERTa)的零样本性能;二是通过微调或提示工程(如少样本提示)优化模型。数据集的句子对已标注为‘蕴含’、‘矛盾’或‘中性’,支持标准的NLI任务评估。此外,其分类型和触发词的设计便于针对性分析模型在特定推理场景中的表现。
背景与挑战
背景概述
CONFER数据集由Carleton大学和渥太华大学的研究团队于2025年6月提出,旨在解决自然语言推理(NLI)模型中条件推理和预设理解的评估空白。该数据集聚焦于条件句中预设投射的复杂现象,填补了现有NLI数据集(如IMPPRES和NOPE)在条件句结构和预设触发机制覆盖上的不足。通过半自动化生成的18,000个语义对,CONFER首次系统化地探索了五种条件句类型中预设与前提的逻辑关系,为计算语言学和语用推理研究提供了新的基准工具。
当前挑战
CONFER数据集揭示了NLI模型在语用推理方面的核心挑战:首先,现有模型难以处理条件句中预设与前提的非线性关系(如Proviso问题),导致对Type 5句子的 entailment 识别准确率不足35%;其次,构建过程中需克服预设触发词(如迭代副词'again'和属格结构)在条件句环境中的语义漂移问题,这要求通过语言学设计的模板和双重人工标注(标注者间一致性达99.86%)来保证数据质量;最后,实验表明即使GPT-4o在零样本设定下对Type 1-3句子的neutral判断准确率仍比人类低26%,凸显了模型对语用隐含推理的泛化能力缺陷。
常用场景
经典使用场景
CONFER数据集专为评估自然语言推理(NLI)模型在条件句中的预设推理能力而设计。其经典使用场景包括测试模型对条件句中预设投射的理解,例如在‘如果A,那么Bp’这类结构中,模型需判断预设p是否被正确继承或修改。这一场景通过精心设计的条件句类型和预设触发器(如迭代副词‘again’和所有格结构),系统化地考察模型对复杂语用推理的泛化能力。
衍生相关工作
CONFER推动了语用推理评估工具的系列研究,其衍生工作包括:1)扩展预设触发器类型的细粒度数据集(如事实性动词、限定描述词);2)结合IMPPRES和NOPE的混合评估框架;3)针对‘Proviso问题’设计的新型条件句变体。这些工作显著提升了后续研究对复杂推理任务的覆盖深度,例如基于DeBERTa的预设投影分析模型和GPT-4的few-shot条件推理优化方案。
数据集最近研究
最新研究方向
CONFER数据集作为自然语言推理(NLI)领域的新兴基准,聚焦于条件句中的预设推理这一前沿问题。随着大语言模型在复杂语义任务中的广泛应用,该数据集通过系统化构建18,000个条件句对,首次揭示了NLI模型在条件预设投射(如Proviso Problem)上的系统性缺陷。研究发现,即便是GPT-4o等先进模型,在零样本和少样本场景下对条件结构中预设的识别准确率不足67%,凸显出现有模型在语用推理与逻辑结构交互层面的重大挑战。这一突破性工作为构建具有深层语用理解能力的NLI系统提供了关键评估框架,推动了语义学理论与计算语言学的交叉创新。
相关研究论文
- 1Let's CONFER: A Dataset for Evaluating Natural Language Inference Models on CONditional InFERence and Presupposition卡尔顿大学, 渥太华大学 · 2025年
以上内容由遇见数据集搜集并总结生成



