ReasonIF
收藏ReasonIF 数据集概述
数据集简介
ReasonIF 是一个系统性基准测试,用于评估大型推理模型在推理过程中遵循指令的能力。该基准涵盖多语言推理、格式控制和长度控制等维度。
核心发现
- 前沿大型推理模型(包括 GPT-OSS-120B、Qwen3-235B 和 DeepSeek-R1)在超过75%的情况下无法遵循推理指令
- 随着任务难度增加,推理指令遵循能力进一步下降
- 推理指令遵循得分显著低于主要响应指令遵循得分
数据集文件
data/reasonIF_dataset.json:核心基准数据集,包含300个样本,要求模型在解决数学、科学和常识问题时遵循显式指令data/number_of_words_reference.json:词数限制指令的参考文件,提供论文结果复现所需的参考计数
使用方法
环境设置
bash uv sync source .venv/bin/activate
模型推理
bash python -m src.main --model_name "deepseek-ai/DeepSeek-R1-Distill-Qwen-14B"
结果评估
bash python -m src.eval_core --model_name "deepseek-ai/DeepSeek-R1-Distill-Qwen-14B"
输出结果
结果保存在 outputs/[model-name]/ 目录:
model_outputs_reasonIF.json:包含推理内容的原始模型输出eval_results.json:评估指标,包括指令遵循准确率
改进策略
- 多轮推理
- 使用合成数据进行推理指令微调(RIF)
相关资源
- 数据集地址:https://huggingface.co/datasets/ykwon-hf/reasonIF
- 论文地址:https://arxiv.org/pdf/2510.15211.pdf
- 博客地址:https://www.together.ai/blog/large-reasoning-models-fail-to-follow-instructions-during-reasoning-a-benchmark-study
引用信息
bibtex @article{kwon2025reasonif, title = {ReasonIF: Large Reasoning Models Fail to Follow Instructions During Reasoning}, author = {Yongchan Kwon and Shang Zhu and Federico Bianchi and Kaitlyn Zhou and James Zou}, year = {2025}, journal = {arXiv preprint arXiv:2510.15211}, archivePrefix= {arXiv}, eprint = {2510.15211}, primaryClass = {cs.LG}, note = {Preprint — submitted October 17, 2025} }




