math-if

Hugging Face2026-03-02 更新2026-03-03 收录

下载链接：

https://huggingface.co/datasets/haritzpuerto/math-if

下载链接

链接失效反馈

官方服务：

资源简介：

Math-IF（数学指令跟随）是一个基于数学应用题构建的指令跟随基准测试。每个示例包含一个数学问题以及明确的、可验证的指令，指导模型应如何响应（例如格式、风格或结构约束）。该基准测试旨在联合测试： - 在推理轨迹（RT）中的指令跟随能力； - 在最终答案（FA）中的指令跟随和正确性。数据集结构： - 开发集：90个示例 - 测试集：332个示例每个实例包含： - `prompt`：包含数学问题和指令的用户提示； - `answer`：真实最终答案； - `question`：基础数学应用题（不含指令）； - 用于评估的元数据：计算指令跟随指标和答案准确性所需的信息。主要任务：数学问题上的指令跟随。评估指标： - 指令级别的宽松准确性（IF-RT和IF-FA）； - 最终数字答案的准确性。数据集用途：用于研究和基准测试，评估模型在解决数学问题时遵循显式指令的能力。已知限制： - 数据集专注于数学应用题，指令跟随性能在其他领域可能不同； - 基准测试规模适中（共422个示例），可能导致细粒度比较的噪声； - 指令为英文，不直接评估多语言行为。许可证：Apache 2.0。

创建时间：

2026-02-25

原始信息汇总

Math-IF 数据集概述

数据集描述

Math-IF (MathIF) 是一个构建在数学应用题之上的指令遵循基准。每个示例包含一个数学问题以及关于模型应如何回应的明确、可验证的指令（例如，格式、风格或结构约束）。该基准旨在联合测试：

在推理轨迹 (RT) 中的指令遵循能力，以及
在最终答案 (FA) 中的指令遵循能力和正确性。

在此存储库中，Math-IF 被用作可控推理模型的开发集和测试基准。

预期用途

评估模型在解决数学问题时遵循显式指令的能力。
该数据集仅用于研究和基准测试。

数据集结构

规模：
- 开发集 (Dev): 90 个示例
- 测试集 (Test): 332 个示例
此处使用的划分：
- GSM8K 分区用作模型选择的开发集。
- 其余分区用作测试集。

每个实例在概念上包含：

prompt：包含数学问题和指令的用户提示。
answer：真实的最终答案。
question：基础的数学应用题（不含指令）。
用于评估的元数据：计算指令遵循指标和答案准确性所需的信息。

数据特征

数据集包含以下字段：

source (字符串)
question (字符串)
answer (字符串)
constraint_desc (字符串列表)
key (字符串)
instruction_id_list (字符串列表)
kwargs (列表)，包含以下子字段：
- capital_frequency (int64)
- capital_relation (字符串)
- num_words (int64)
- relation (字符串)
- keyword (字符串)
- frequency (int64)
- prompt_to_repeat (字符串)
- keywords (字符串列表)
- forbidden_words (字符串列表)
- num_highlights (int64)
- end_phrase (字符串)
- num_bullets (int64)
- section_spliter (字符串)
- num_sections (int64)
- language (字符串)
prompt (字符串)

任务与评估

主要任务：数学问题上的指令遵循。
评估指标：
- 针对 RT 和 FA 的指令级宽松准确率（如 Math-IF 论文中所定义），产生 IF-RT 和 IF-FA 分数。
- 答案准确率，用于衡量最终数字答案是否正确。

数据来源

Math-IF 的引入是为了研究大型推理模型中推理性能与指令遵循之间的权衡。完整的详细信息、示例和官方评估脚本，请参阅原始的 Math-IF 论文和存储库。

许可信息

许可证：Apache 2.0

已知限制与注意事项

该数据集专注于数学应用题，因此指令遵循性能在其他领域（例如，开放式对话、代码生成）可能有所不同。
基准规模适中（此处使用的 dev+test 配置中共有 422 个示例），这可能导致非常细粒度的比较存在噪声。
指令为英文，因此该基准不直接评估多语言行为。

引用

bibtex @misc{puerto2026controllablereasoningmodelsprivate, title={Controllable Reasoning Models Are Private Thinkers}, author={Haritz Puerto and Haonan Li and Xudong Han and Timothy Baldwin and Iryna Gurevych}, year={2026}, eprint={2602.24210}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2602.24210}, }

@article{fu2025scaling, title={Scaling Reasoning, Losing Control: Evaluating Instruction Following in Large Reasoning Models}, author={Fu, Tingchen and Gu, Jiawei and Li, Yafu and Qu, Xiaoye and Cheng, Yu}, journal={arXiv preprint arXiv:2505.14810}, year={2025} }

搜集汇总

数据集介绍

构建方式

Math-IF数据集以数学应用题为基础，通过精心设计的指令框架构建而成。其核心方法是在每个数学问题之上附加明确且可验证的响应指令，这些指令涉及格式、风格或结构约束。数据来源于既有的数学问题语料，并经过人工或自动化流程，为每个实例标注了包含问题、答案、指令描述及丰富元数据的结构化信息。开发集与测试集的划分旨在分别用于模型调优与最终评估，确保了基准测试的系统性与严谨性。

使用方法

在使用Math-IF数据集时，研究者通常将其作为评估基准，以测试模型在解决数学问题时遵循显式指令的能力。典型流程包括：将数据集的提示（prompt）输入待评估模型，获取模型生成的推理轨迹和最终答案；随后，利用数据集提供的标准答案及元数据，通过官方评估脚本计算指令遵循度指标（如IF-RT和IF-FA）以及最终答案的准确率。开发集可用于超参数调整或模型选择，而测试集则用于报告最终性能。该数据集主要服务于研究目的，需在Apache 2.0许可下规范使用。

背景与挑战

背景概述

数学指令跟随基准Math-IF于2025至2026年间由Haritz Puerto、Tingchen Fu等多位研究者共同构建，旨在探究大型推理模型在解决数学问题时遵循显式指令的能力。该数据集基于数学应用题设计，每个实例不仅包含问题本身，还附有关于响应格式、风格或结构的具体约束，从而联合评估模型在推理轨迹与最终答案两方面的指令遵循度。其核心研究问题聚焦于推理性能与指令控制之间的权衡，为可控推理模型的发展提供了关键评估工具，推动了自然语言处理领域对模型可解释性与可控性的深入研究。

当前挑战

Math-IF数据集所针对的领域挑战在于，现有大型语言模型虽在数学推理任务上表现优异，却常忽视用户指定的输出约束，导致生成内容在格式、结构或风格上偏离要求，这揭示了模型指令遵循能力与推理准确性之间的固有张力。在构建过程中，挑战主要源于如何设计多样化且可验证的指令约束，确保其既能涵盖格式、词汇、章节组织等维度，又能与数学问题语义无缝融合；同时，数据规模相对有限，仅包含422个示例，可能影响评估结果的统计稳健性，且其指令仅限英语，未能涵盖多语言场景的复杂性。

常用场景

经典使用场景

在数学推理领域，Math-IF数据集被广泛用于评估大型语言模型在解决数学问题时遵循显式指令的能力。该数据集精心构建了包含格式、风格或结构约束的数学应用题，要求模型在推理过程中严格遵循这些指令。经典使用场景包括对模型进行可控推理能力的基准测试，特别是在开发集上调整模型参数，并在测试集上验证其指令遵循与答案正确性的综合表现。

解决学术问题

Math-IF数据集主要解决了大型推理模型中指令遵循与推理性能之间的权衡问题。它通过提供可验证的指令约束，帮助研究者量化模型在推理轨迹和最终答案中的指令遵循程度。这一设计使得学术界能够深入探究模型在复杂任务中是否牺牲控制性以换取性能，为可控推理模型的发展提供了关键的评估工具，推动了指令跟随与数学问题解决交叉领域的研究进展。

实际应用

在实际应用中，Math-IF数据集被用于开发和优化需要高精度指令遵循的智能教育系统。例如，在自动化数学辅导工具中，模型必须准确理解教师或用户提出的格式要求，如分步解答、特定术语使用或结构化输出。该数据集帮助训练和评估这些系统，确保它们不仅能得出正确答案，还能以符合指令的方式呈现推理过程，提升教育辅助工具的可靠性和用户体验。

数据集最近研究