Missing Premise (MiP) Datasets

github2025-04-10 更新2025-04-11 收录

下载链接：

https://github.com/tianyi-lab/MiP-Overthinking

下载链接

链接失效反馈

官方服务：

资源简介：

我们构建了Missing Premise (MiP)数据集，用于评估MiP-Overthinking问题。

我们构建了缺失前提（Missing Premise, MiP）数据集，用于评估MiP-Overthinking问题。

创建时间：

2025-04-09

原始信息汇总

MiP-Overthinking 数据集概述

数据集基本信息

数据集名称: MiP-Overthinking
相关论文: Missing Premise exacerbates Overthinking: Are Reasoning Models losing Critical Thinking Skill?
维护者: Ming Li (Homepage, Email)

数据集内容

Missing Premise (MiP) Datasets: 用于评估MiP-Overthinking问题的数据集。
推理代码: 包含开源模型和API模型的推理代码。
模型响应: 使用的模型生成的响应。

数据集特点

MiP-Overthinking问题: 当推理模型面对缺失前提的问题时，响应长度显著增加，产生冗余和无效的思考。
对比分析: 推理模型与非推理模型在响应长度、准确率和弃答率上的对比。
数据来源: 基于3个不同难度的数学数据集构建的MiP问题，以及包含未分配变量的公式的合成数据集。

数据集结构

数据示例: 包含GSM8K问题的MiP变体（移除关键数值条件）。
数据可视化: 展示了模型对MiP问题和定义良好问题的响应长度比较。

使用方式

安装依赖: pip install -r requirements.txt
推理代码:
- 非API模型推理: python inference.py
- API模型推理: python api_inference/deepseek_infer.py
评估代码:
- 统计token和单词数量: python count.py
- 评估准确率、弃答率等: python eval.py

引用信息

bibtex @misc{fan2025missingpremiseexacerbatesoverthinking, title={Missing Premise exacerbates Overthinking: Are Reasoning Models losing Critical Thinking Skill?}, author={Chenrui Fan and Ming Li and Lichao Sun and Tianyi Zhou}, year={2025}, eprint={2504.06514}, archivePrefix={arXiv}, primaryClass={cs.AI}, url={https://arxiv.org/abs/2504.06514}, }

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，Missing Premise (MiP) Datasets的构建采用了严谨的科学方法。研究团队从三个不同难度的数学数据集中精心筛选并改造问题，通过系统性移除关键前提条件，构建了具有可控性的MiP问题集合。此外，还专门设计了一个包含未赋值变量的合成公式数据集，为研究推理模型的临界思维能力提供了多维度的评估基准。这种构建方式既保留了原始问题的结构特征，又通过缺失前提的引入创造了新的研究维度。

使用方法

该数据集的使用遵循标准化的评估流程。用户可通过提供的inference.py脚本对开源模型和API模型进行推理测试，分别处理完整问题和MiP问题。评估阶段使用count.py统计响应标记数量，通过eval.py计算准确率、弃答率等关键指标。这种模块化设计使得研究者能够系统性地比较不同模型在MiP场景下的表现差异，为改进推理模型的临界思维能力提供量化依据。

背景与挑战

背景概述

Missing Premise (MiP) Datasets由马里兰大学的研究团队于2025年创建，旨在探究推理大语言模型在面临缺失前提问题时表现出的过度思考现象。该数据集聚焦于当前人工智能领域的关键问题——大语言模型的推理效率与批判性思维能力。研究团队通过构建包含数学题和未赋值变量公式的MiP问题集，揭示了现有推理模型在信息不完整情境下产生的冗余思考模式，这一发现对优化模型训练范式具有重要启示意义。

当前挑战

该数据集主要解决推理模型在信息缺失场景下的效率挑战。核心问题体现在：模型面对缺失前提的问题时，会产生2-4倍的冗余输出却无法有效识别信息缺陷，这与测试时扩展定律形成矛盾。数据构建过程中，研究者需要精确控制前提缺失的程度，确保问题在保持原始结构的同时移除关键信息。另一个关键挑战在于量化评估模型的过度思考程度，这需要设计特殊的指标来测量响应长度、怀疑表达频率等维度。

常用场景

经典使用场景

在自然语言处理领域，Missing Premise (MiP) Datasets 主要用于评估推理模型在面对缺失前提问题时产生的过度思考现象。该数据集通过精心设计的数学问题和未定义变量的公式，模拟了现实场景中信息不完整的情况，为研究者提供了一个标准化的测试平台。经典使用场景包括对比推理模型与非推理模型在MiP问题上的响应差异，分析模型在关键信息缺失时的思考路径和决策过程。

解决学术问题

该数据集揭示了推理模型在缺失前提条件下的过度思考问题，挑战了测试时间缩放定律的普遍适用性。通过系统化的实验分析，研究者能够深入理解模型在信息不完整时的行为模式，为解决模型鲁棒性和效率问题提供了新的研究方向。这一发现对优化推理模型的训练策略和评估方法具有重要的理论意义。

实际应用

在实际应用中，Missing Premise (MiP) Datasets 可用于改进智能问答系统和对话模型的性能。通过识别和解决模型在信息缺失情况下的过度思考问题，可以提升系统在真实场景中的响应效率和准确性。此外，该数据集还可用于教育领域，帮助学生理解逻辑推理中的前提重要性。

数据集最近研究