IMPERFECTIVENLI

Name: IMPERFECTIVENLI
Creator: 慕尼黑大学; 东京大学
Published: 2026-01-14 18:57:16
License: 暂无描述

arXiv2026-01-14 更新2026-01-16 收录

下载链接：

https://github.com/boleima/ImperfectiveParadox

下载链接

链接失效反馈

官方服务：

资源简介：

IMPERFECTIVENLI是由慕尼黑大学和东京大学的研究团队创建的诊断性数据集，旨在探究大语言模型对未完成体悖论的理解能力。该数据集包含400个经过严格人工验证的例句，涵盖100个目标性动词和100个非目标性动词，通过模板化生成确保句法一致性。数据构建过程结合了Gemini辅助重写和人工标注，重点关注动词的体态分类及逻辑条件交叉分析。该数据集主要用于自然语言推理领域，揭示语言模型在事件语义理解中存在的目标性偏差问题，为改进模型对动作过程与结果状态的逻辑区分提供评估基础。

IMPERFECTIVENLI is a diagnostic dataset developed by research teams from Ludwig Maximilian University of Munich and the University of Tokyo, which aims to investigate the capacity of large language models (LLMs) to comprehend the imperfective paradox. This dataset comprises 400 rigorously human-validated example sentences, covering 100 telic verbs and 100 atelic verbs, and is generated via templatization to ensure syntactic consistency. The dataset construction process integrates Gemini-assisted rewriting and manual annotation, with a focus on verb aspect classification and cross-analysis of logical conditions. Primarily applied in the field of natural language inference (NLI), this dataset is designed to reveal the telic bias of language models in event semantic understanding, providing an evaluation foundation for enhancing the models' ability to logically differentiate between action processes and resultant states.

提供机构：

慕尼黑大学; 东京大学

创建时间：

2026-01-14

原始信息汇总

Imperfective Paradox 数据集概述

数据集简介

本仓库提供了一个用于评估大型语言模型在未完成体悖论上的简化框架，该评估基于自然语言推理任务。其旨在测试逻辑推理能力，特别聚焦于针对活动与成就两类动作的未完成体（判断一个动作是否已完成）。本仓库提供了一个诊断数据集 ImperfectiveNLI 以及用于进行实验的推理代码。

核心特性

多策略提示：无需更改代码即可在不同推理技术间轻松切换：
- zero-shot：标准的零样本分类（真/假/未知）。
- dap：在系统提示中注入特定的语言学规则（活动动词与成就动词）。
- cot：关注动作时间端点的思维链方法。
- counterfactual：反事实方法，要求模型首先列出潜在的现实世界干扰因素，迫使模型思考干扰。
模型无关性：兼容任何 Hugging Face Transformer 模型（如 Llama 3、Mistral、Qwen、DeepSeek 等）。
鲁棒的格式化：自动为经过指令调优的模型应用正确的 chat_template。

数据格式

数据集以 JSON 格式组织，示例如下： json [ { "id": "A_001", "group": "A_Interrupted_Accomplishment", "verb_class": "Creation", "verb": "build", "premise": "The carpenter was building a gazebo, but a storm destroyed the frame before the roof was on.", "hypothesis": "The carpenter built a gazebo.", "label": "False", }, ... ]

每个数据条目包含唯一标识符 id、所属组别 group、动词类别 verb_class、具体动词 verb、前提句 premise、假设句 hypothesis 以及真实标签 label。

相关资源

论文链接：https://arxiv.org/abs/2601.09373

搜集汇总

数据集介绍

构建方式

在自然语言推理领域，探究大语言模型对事件语义的深层理解能力，IMPERFECTIVENLI数据集的构建采用了严谨的模板化生成方法。该数据集基于Vendler的体貌分类理论，精心筛选了100个有界动词和100个无界动词，确保词汇在体貌属性上的平衡性。通过Gemini辅助生成与人工严格验证相结合的方式，为每个动词创建了前提-假设对，并设计了四组逻辑条件，形成最小对比对实验结构。这些条件交叉考量动词的有界性与语境信息，最终构建了包含400个样本的诊断性数据集，旨在精准探测模型对未完成体悖论的解析能力。

使用方法

该数据集主要用于评估大语言模型在零样本或少量提示下对未完成体悖论的理解能力。研究者通过设计不同的提示策略，如严格逻辑提示、定义感知提示、思维链提示和反事实提示，将数据集中的前提-假设对输入模型，要求其判断蕴含关系为真、假或未知。通过计算模型在各逻辑组上的准确率、目的论偏差率和体貌意识差距等指标，可以系统分析模型是否混淆了事件过程与结果，以及不同提示策略在缓解偏差与保持语义校准之间的权衡效应。数据集为探究模型内部表征与推理决策的分离现象提供了实证基础。

背景与挑战

背景概述

在自然语言处理领域，事件语义的组成性理解是评估大型语言模型推理能力的关键维度。IMPERFECTIVENLI数据集由慕尼黑大学与东京大学的研究团队于2026年创建，旨在系统探究语言模型对未完成体悖论的处理机制。该悖论源于形式语义学理论，揭示了完成性动词与活动性动词在进行体形态下逻辑蕴涵的差异性：活动性动词的进行式必然蕴涵其完成式，而完成性动词则不具备这种蕴涵关系。数据集通过精心设计的诊断性评估框架，为检验模型是否真正掌握事件的时间结构提供了标准化基准，对推动语言模型从表层概率预测向深层逻辑推理演进具有重要理论价值。

当前挑战

IMPERFECTIVENLI数据集所针对的核心挑战在于揭示大型语言模型在事件语义推理中存在的目的论偏差。模型普遍倾向于假设目标导向事件必然达成其自然终结点，这种系统性幻觉导致其无法准确区分进行体所描述的过程与完成体所断言的结果之间的逻辑界限。在构建过程中，研究团队面临语义类别平衡与逻辑条件控制的挑战，需确保动词词典在完成性与活动性类别间的均衡分布，并通过最小对比对设计隔离词汇体属性对推理的影响。同时，数据生成需在保持句法一致性的前提下，实现四种逻辑条件的精确映射，这对人工验证与质量保障提出了较高要求。

常用场景

经典使用场景

在自然语言推理领域，IMPERFECTIVENLI数据集被设计为一种诊断工具，专门用于探究大语言模型对未完成体悖论的理解能力。该数据集通过构建最小对比对，系统性地考察模型在区分活动动词与完成动词逻辑蕴含时的表现，例如模型是否能够正确判断‘正在建造’不必然蕴含‘已建成’，而‘正在跑步’则必然蕴含‘已跑步’。这一场景为评估模型的结构化体貌意识提供了精确的测试平台。

解决学术问题

该数据集核心解决了大语言模型在事件语义组合性理解上的关键学术问题，即模型是否真正掌握了动词体貌的逻辑边界。它揭示了模型普遍存在的目的论偏差——倾向于假设目标导向动作必然达成，从而混淆过程与结果。这一发现挑战了模型作为忠实逻辑推理者的假设，表明其更多依赖表层概率启发而非深层语义组合，推动了关于模型推理鲁棒性与事件语义形式化表征的研究。

实际应用

在实际应用中，IMPERFECTIVENLI为改进大语言模型的推理可靠性提供了重要基准。例如，在自动文本摘要、对话系统或叙事生成任务中，模型需要准确理解事件的进行状态与完成状态之间的逻辑关系，避免错误推断未提及的结果。该数据集有助于开发更精准的提示策略或微调方法，以降低模型在医疗、法律或教育等高风险领域产生幻觉完成的风险，提升生成内容的逻辑一致性。

数据集最近研究