ReasonIF

github2025-10-23 更新2025-10-25 收录

下载链接：

https://github.com/ykwon0407/reasonIF

下载链接

链接失效反馈

官方服务：

资源简介：

ReasonIF是一个系统基准数据集，用于评估大型推理模型在推理过程中遵循指令的能力。它包含300个样本，涵盖数学、科学和常识问题，要求模型在解决这些问题时遵循明确的指令约束，如多语言推理、格式控制和长度限制。该数据集旨在揭示模型在推理过程中指令遵循的不足，并支持相关改进策略的研究。

ReasonIF is a systematic benchmark dataset for evaluating the instruction-following capabilities of large reasoning models during their inference processes. It comprises 300 samples spanning mathematical, scientific, and commonsense problems, where models are required to comply with explicit instruction constraints such as multilingual reasoning, format control, and length limits when solving these tasks. This dataset aims to uncover the deficiencies in models' instruction-following performance during inference, and support research on relevant improvement strategies.

创建时间：

2025-10-15

原始信息汇总

ReasonIF 数据集概述

数据集简介

ReasonIF 是一个系统性基准测试，用于评估大型推理模型在推理过程中遵循指令的能力。该基准涵盖多语言推理、格式控制和长度控制等维度。

核心发现

前沿大型推理模型（包括 GPT-OSS-120B、Qwen3-235B 和 DeepSeek-R1）在超过75%的情况下无法遵循推理指令
随着任务难度增加，推理指令遵循能力进一步下降
推理指令遵循得分显著低于主要响应指令遵循得分

数据集文件

data/reasonIF_dataset.json：核心基准数据集，包含300个样本，要求模型在解决数学、科学和常识问题时遵循显式指令
data/number_of_words_reference.json：词数限制指令的参考文件，提供论文结果复现所需的参考计数

使用方法

环境设置

bash uv sync source .venv/bin/activate

模型推理

bash python -m src.main --model_name "deepseek-ai/DeepSeek-R1-Distill-Qwen-14B"

结果评估

bash python -m src.eval_core --model_name "deepseek-ai/DeepSeek-R1-Distill-Qwen-14B"

输出结果

结果保存在 outputs/[model-name]/ 目录：

model_outputs_reasonIF.json：包含推理内容的原始模型输出
eval_results.json：评估指标，包括指令遵循准确率

改进策略

多轮推理
使用合成数据进行推理指令微调（RIF）

引用信息

bibtex @article{kwon2025reasonif, title = {ReasonIF: Large Reasoning Models Fail to Follow Instructions During Reasoning}, author = {Yongchan Kwon and Shang Zhu and Federico Bianchi and Kaitlyn Zhou and James Zou}, year = {2025}, journal = {arXiv preprint arXiv:2510.15211}, archivePrefix= {arXiv}, eprint = {2510.15211}, primaryClass = {cs.LG}, note = {Preprint — submitted October 17, 2025} }

搜集汇总

数据集介绍

构建方式

在大型推理模型评估领域，ReasonIF基准通过精心设计的300个样本构建而成，涵盖数学推理、科学问题与常识判断三大范畴。构建过程中采用多维度指令约束框架，每个样本均包含对推理过程的显式要求，例如多语言推理规范、输出格式限制及字数控制指令。数据集通过标准化标注流程确保指令的明确性与可验证性，同时配备独立的字数参考文件以适配不同模型的输出特性，为系统性评估奠定坚实基础。

特点

该数据集的核心特征在于其首创的推理过程指令遵循评估维度，突破传统仅关注最终答案的局限。其指令体系具备多语言交织、结构化格式约束与动态字数阈值三重特性，能够精准捕捉模型在复杂推理链中对用户指令的遵从度。特别值得注意的是，数据集中指令难度与任务复杂度呈正相关设计，有效揭示出现有前沿模型在推理过程中指令遵循能力普遍低于75%的现象，为模型缺陷诊断提供关键洞察。

使用方法

使用本数据集需通过标准化评估流程：首先配置兼容vLLM的推理环境，执行模型推理生成包含推理过程的完整输出；随后调用专用评估模块对模型在推理链中的指令遵循情况进行量化分析。评估结果将分别保存为原始推理记录与指令遵循指标两个结构化文件，支持研究者横向比较不同模型的推理指令敏感性。该评估框架为提升大型推理模型的指令对齐能力提供了可复现的验证基准。

背景与挑战

背景概述

随着大语言模型在复杂推理任务中展现出卓越能力，其指令遵循的可靠性成为关键评估维度。ReasonIF基准数据集由Yongchan Kwon等研究人员于2025年提出，聚焦于大推理模型在数学、科学与常识问题求解过程中对用户指令的遵循能力。该数据集通过构建多语言推理、格式规范与长度控制三类约束条件，系统评估了包括GPT-OSS-120B、Qwen3-235B在内的前沿模型，揭示其在推理过程中指令遵循的显著缺陷，为提升模型可控性提供了重要研究基础。

当前挑战

该数据集核心挑战体现在两个层面：在领域问题层面，大推理模型虽能生成准确答案，但其推理过程常违背基础指令约束，如多语言转换失败或字数限制突破，导致模型行为与用户预期产生偏差；在构建技术层面，需精准设计涵盖数学推导与科学论证的300个样本，并建立动态词汇量参照体系，以适配不同模型的输出特性，同时确保评估指标能有效区分指令遵循程度与任务难度间的关联性。

常用场景

经典使用场景

在人工智能推理模型评估领域，ReasonIF数据集被广泛用于系统化测试大型推理模型在数学、科学及常识问题求解过程中遵循指令的能力。该数据集通过多语言推理、格式规范与长度控制等维度，构建了严谨的评估框架，成为衡量模型推理过程合规性的基准工具。

解决学术问题

该数据集有效揭示了前沿推理模型在复杂任务中普遍存在的指令遵循缺陷，为解决模型推理轨迹与用户指令脱节的核心问题提供了量化依据。通过构建多维度评估体系，不仅填补了推理过程指令遵循研究的空白，更为提升模型可控性与可靠性奠定了理论基础，推动人工智能向精准化、人性化交互方向发展。

衍生相关工作

基于该数据集提出的推理指令微调方法催生了系列改进技术，如多轮推理优化框架与合成数据增强策略。这些工作显著提升了GPT-OSS-20B等模型的指令遵循分数，推动了《推理链可控生成》等研究方向的发展，为构建下一代可信赖人工智能系统提供了关键技术路径。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集

ReasonIF

ReasonIF 数据集概述

数据集简介

核心发现

数据集文件

使用方法

环境设置

模型推理

结果评估

输出结果

改进策略

相关资源

引用信息