ReasoningTrap

github2025-05-25 更新2025-05-27 收录

下载链接：

https://github.com/ReasoningTrap/ReasoningTrap

下载链接

链接失效反馈

官方服务：

资源简介：

ReasoningTrap是一个专家策划的诊断集，旨在系统研究大型推理模型的推理刚性行为。该数据集包括专门修改的现有数学基准（AIME和Math500）以及重新设计的知名谜题，旨在要求偏离熟悉的推理策略。通过这个数据集，可以识别模型默认使用固有推理时出现的污染模式，具体分为三种不同的模式：（i）解释过载，（ii）输入不信任，（iii）部分指令关注，每种模式都会导致模型忽略或扭曲提供的指令。

ReasoningTrap is an expert-curated diagnostic dataset designed to systematically investigate the reasoning rigidity behavior of large reasoning models. This dataset includes specially modified existing mathematical benchmarks (AIME and Math500) as well as redesigned well-known puzzles, which are intended to require models to deviate from familiar reasoning strategies. Using this dataset, contamination patterns that arise when models employ inherent reasoning by default can be identified, which are specifically categorized into three distinct modes: (i) Explanation Overload, (ii) Input Distrust, and (iii) Partial Instruction Focus. Each of these modes leads the model to ignore or distort the provided instructions.

创建时间：

2025-05-21

原始信息汇总

ReasoningTrap 数据集概述

📌 数据集简介

目的：诊断大型推理模型因"推理刚性"导致的推理失败问题
核心问题：RL调优的推理LLMs擅长生成答案但常忽略用户显式约束
特点：通过精心设计的条件问题揭示模型失败模式

📂 数据集构成

ConditionedMath
- 基于AIME和MATH500数学推理基准修改
- 通过最小约束改变来转移推理路径
- 下载地址：https://huggingface.co/datasets/ReasoningTrap/AIME 和 https://huggingface.co/datasets/ReasoningTrap/MATH500
PuzzleTrivial
- 知名谜题通过细微修改简化
- 小变化将挑战性问题转化为简单问题
- 下载地址：https://huggingface.co/datasets/ReasoningTrap/PuzzleTrivial

🔍 关键发现

推理刚性：模型对熟悉推理模式的过度依赖
污染模式分类：
- 解释过载(Interpretation Overload)
- 输入不信任(Input Distrust)
- 部分指令关注(Partial Instruction Attention)

🛠 使用方式

推理：
- 支持模型：可通过修改models.py添加
- 参数：
  - --model：模型名称
  - --num_samples：样本数
  - --data_type：aime|math500|puzzle
  - --type_flag：original|modified
  - --cot：启用思维链
评估：
- 计算指标：p-pass@1, pass@1和感知比率(perception ratio)

📊 评估结果

ConditionedMath：包含主要数学评估结果
PuzzleTrivial：包含主要谜题评估结果

搜集汇总

数据集介绍

构建方式

在数学推理和逻辑谜题领域，ReasoningTrap数据集的构建采用了专家精心设计的诊断性方法。该数据集基于著名的数学推理基准AIME和MATH500，通过引入最小约束条件对原始问题进行修改，从而改变推理路径。同时，数据集还包含一系列经过细微调整的知名谜题，这些调整将原本复杂的问题转化为简单问题。这种构建方式旨在揭示大型语言模型在推理过程中存在的刚性行为。

特点

ReasoningTrap数据集的核心特点在于其针对大型语言模型推理刚性的诊断能力。数据集包含三类特殊设计的数学问题和谜题，能够有效捕捉模型在推理过程中忽视用户明确约束的行为。具体而言，这些问题被设计为需要模型偏离熟悉的推理策略，从而暴露其推理过程中的三种典型污染模式：解释过载、输入不信任和部分指令关注。这种设计使得数据集能够系统性地评估模型在复杂推理任务中的表现。

使用方法

使用ReasoningTrap数据集进行模型评估具有较高的灵活性。研究人员可以通过简单的命令行指令，利用vLLM框架对任何基于🤗 Transformers的模型进行测试。数据集支持对AIME、MATH500和PuzzleTrivial三类问题的评估，并可选择原始或修改版本进行测试。评估流程包括生成模型输出、运行评估管道以及计算p-pass@1、pass@1和感知比率等指标，为研究者提供了全面的模型性能分析工具。

背景与挑战

背景概述

ReasoningTrap数据集由KAIST和AITRICS的研究团队于2023年推出，旨在诊断大型推理模型在复杂逻辑任务中表现出的推理僵化现象。该数据集基于经典数学竞赛题库AIME和MATH500进行改造，并融合了经过微妙修改的经典谜题，通过植入特定约束条件来揭示模型在遵循显式指令方面的系统性缺陷。研究团队在Eunho Yang教授指导下，首次将认知心理学中的思维定势概念引入AI评估领域，为理解大语言模型在数学推理和逻辑解题中的局限性提供了标准化测试基准。

当前挑战

该数据集面临的核心挑战体现在两个方面：在领域问题层面，需要解决现有评估基准无法捕捉模型对显式约束条件忽视的问题，这要求重构题目时保持原题核心难度同时植入关键性干扰条件；在构建技术层面，需平衡题目修改的微妙性与诊断有效性，既要确保修改足够细微以避免直接暴露解题线索，又要保证修改能有效触发模型的推理僵化行为。此外，评估体系需要设计新型指标来量化模型在遵循约束条件方面的失败模式，这超越了传统准确率指标的局限性。

常用场景

经典使用场景

在人工智能领域，大型语言模型在复杂推理任务中展现出卓越能力，但其固有的推理刚性现象成为研究焦点。ReasoningTrap数据集通过精心设计的条件数学题和改编谜题，为评估模型在约束条件下的推理能力提供了标准测试平台。该数据集特别适用于分析模型在面对用户明确约束时，是否能够摆脱固有推理模式，灵活调整解题策略。研究人员可以借助这一工具，系统性地检测模型在数学推理和逻辑谜题等场景中的表现偏差。

衍生相关工作

ReasoningTrap的发布推动了多项重要研究进展，包括基于约束遵循能力的模型微调方法、推理路径可视化分析工具的开发，以及新型评估指标的建立。相关成果已应用于改进数学推理基准测试体系，并启发了针对专业领域约束条件处理的研究方向。部分衍生工作进一步扩展了数据集的应用范围，将其适配到编程解题、医学诊断等需要精确遵循约束的细分领域。

数据集最近研究