math-if
收藏Math-IF 数据集概述
数据集描述
Math-IF (MathIF) 是一个构建在数学应用题之上的指令遵循基准。每个示例包含一个数学问题以及关于模型应如何回应的明确、可验证的指令(例如,格式、风格或结构约束)。该基准旨在联合测试:
- 在推理轨迹 (RT) 中的指令遵循能力,以及
- 在最终答案 (FA) 中的指令遵循能力和正确性。
在此存储库中,Math-IF 被用作可控推理模型的开发集和测试基准。
预期用途
- 评估模型在解决数学问题时遵循显式指令的能力。
- 该数据集仅用于研究和基准测试。
数据集结构
- 规模:
- 开发集 (Dev): 90 个示例
- 测试集 (Test): 332 个示例
- 此处使用的划分:
- GSM8K 分区用作模型选择的开发集。
- 其余分区用作测试集。
每个实例在概念上包含:
prompt:包含数学问题和指令的用户提示。answer:真实的最终答案。question:基础的数学应用题(不含指令)。- 用于评估的元数据:计算指令遵循指标和答案准确性所需的信息。
数据特征
数据集包含以下字段:
source(字符串)question(字符串)answer(字符串)constraint_desc(字符串列表)key(字符串)instruction_id_list(字符串列表)kwargs(列表),包含以下子字段:capital_frequency(int64)capital_relation(字符串)num_words(int64)relation(字符串)keyword(字符串)frequency(int64)prompt_to_repeat(字符串)keywords(字符串列表)forbidden_words(字符串列表)num_highlights(int64)end_phrase(字符串)num_bullets(int64)section_spliter(字符串)num_sections(int64)language(字符串)
prompt(字符串)
任务与评估
- 主要任务:数学问题上的指令遵循。
- 评估指标:
- 针对 RT 和 FA 的指令级宽松准确率(如 Math-IF 论文中所定义),产生 IF-RT 和 IF-FA 分数。
- 答案准确率,用于衡量最终数字答案是否正确。
数据来源
Math-IF 的引入是为了研究大型推理模型中推理性能与指令遵循之间的权衡。完整的详细信息、示例和官方评估脚本,请参阅原始的 Math-IF 论文和存储库。
许可信息
- 许可证:Apache 2.0
已知限制与注意事项
- 该数据集专注于数学应用题,因此指令遵循性能在其他领域(例如,开放式对话、代码生成)可能有所不同。
- 基准规模适中(此处使用的 dev+test 配置中共有 422 个示例),这可能导致非常细粒度的比较存在噪声。
- 指令为英文,因此该基准不直接评估多语言行为。
引用
bibtex @misc{puerto2026controllablereasoningmodelsprivate, title={Controllable Reasoning Models Are Private Thinkers}, author={Haritz Puerto and Haonan Li and Xudong Han and Timothy Baldwin and Iryna Gurevych}, year={2026}, eprint={2602.24210}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2602.24210}, }
@article{fu2025scaling, title={Scaling Reasoning, Losing Control: Evaluating Instruction Following in Large Reasoning Models}, author={Fu, Tingchen and Gu, Jiawei and Li, Yafu and Qu, Xiaoye and Cheng, Yu}, journal={arXiv preprint arXiv:2505.14810}, year={2025} }



