Math-RoB
收藏arXiv2025-03-06 更新2025-03-11 收录
下载链接:
http://arxiv.org/abs/2503.04550v1
下载链接
链接失效反馈官方服务:
资源简介:
Math-RoB是一个针对数学推理任务设计的鲁棒性评估基准,由武汉大学和新加坡南洋理工大学的研究人员开发。该数据集通过在Math500数据集的基础上引入四种不同的变化(包括文本长度增加、操作符替换、数字替换和关键信息删除),旨在揭示大型语言模型在数学推理中的鲁棒性问题。Math-RoB包含了四个子数据集,分别针对不同的鲁棒性挑战:Math-RoB-RoLo、Math-RoB-Define、Math-RoB-Number和Math-RoB-Delete,共40个问题。这些数据集旨在评估模型在面对信息缺失、操作符敏感性、数值脆弱性和记忆依赖性等方面的推理鲁棒性。
Math-RoB is a robustness evaluation benchmark designed for mathematical reasoning tasks, developed by researchers from Wuhan University and Nanyang Technological University, Singapore. Built upon the Math500 dataset, this dataset introduces four distinct variations including increased text length, operator replacement, number replacement, and key information deletion, aiming to uncover the robustness issues of large language models in mathematical reasoning. Math-RoB contains four sub-datasets targeting different robustness challenges: Math-RoB-RoLo, Math-RoB-Define, Math-RoB-Number, and Math-RoB-Delete, with a total of 40 questions. These sub-datasets are designed to evaluate a model's reasoning robustness against scenarios such as missing information, operator sensitivity, numerical vulnerability, and memory dependence.
提供机构:
武汉大学, 新加坡南洋理工大学
创建时间:
2025-03-06
搜集汇总
数据集介绍

构建方式
Math-RoB数据集的构建方式旨在通过引入各种数学问题变体,以揭示大型语言模型(LLMs)在推理中的鲁棒性挑战。数据集包含四个子集,分别为Math-RoB-RoLo、Math-RoB-Define、Math-RoB-Number和Math-RoB-Delete。Math-RoB-RoLo通过增加文本长度来评估模型提取相关信息的能力,Math-RoB-Define通过替换操作符来增加推理复杂性,Math-RoB-Number通过数值变换增加难度,Math-RoB-Delete则通过移除关键信息来评估模型在缺失信息情况下的推理能力。这些数据集的构建基于对LLMs推理过程中四个关键局限性的深入分析,包括位置偏差、指令敏感性、数值脆弱性和记忆依赖性。
特点
Math-RoB数据集的特点在于其多样性和针对性。数据集不仅涵盖了不同类型的数学问题,而且每个子集都专门针对LLMs推理中的特定挑战进行设计。例如,Math-RoB-RoLo旨在评估模型在处理长文本时的鲁棒性,而Math-RoB-Delete则用于检测模型在缺失信息情况下的幻觉倾向。数据集的构建方式确保了模型在不同推理场景下的表现可以得到全面评估,从而为研究LLMs推理的鲁棒性提供了有力的工具。
使用方法
使用Math-RoB数据集的方法包括评估LLMs在不同推理任务中的表现,并分析其在特定挑战下的鲁棒性。研究者可以通过在数据集上运行模型并记录其准确性、记忆完成率(MCR)和下降率等指标来评估模型的性能。此外,数据集还提供了用于生成推理路径和评估每一步推理质量的奖励模型,以及蒙特卡洛树搜索(MCTS)算法,以探索不同的解决方案并找到最优解。通过对不同模型在Math-RoB数据集上的表现进行分析,研究者可以深入了解LLMs推理的局限性和改进方向。
背景与挑战
背景概述
Math-RoB数据集是由Tong Yu等人于2025年创建的,旨在评估大型语言模型(LLM)在数学推理任务中的鲁棒性。该数据集的创建源于对LLM在推理能力和泛化方面的关键挑战的认识,即在新颖或不完整数据上的性能显著下降,表明它们依赖于记忆的模式而不是系统的推理。通过对现有LLM的深入研究,研究者发现了四个关键的独特局限性:位置偏差、指令敏感性、数值脆弱性和记忆依赖。这些发现突出了LLM在推理鲁棒性方面的挑战。为了全面调查这些鲁棒性挑战,本文介绍了一个名为Math-RoB的新型基准,它利用缺失信息引起的幻觉来暴露推理差距。通过基于指令的方法生成与训练分布相似的多样化数据集,Math-RoB促进了整体鲁棒性评估,并推动了更鲁棒的推理框架的发展。
当前挑战
Math-RoB数据集面临的挑战包括:1) 位置偏差:模型在多查询输入中倾向于较早的查询,但在后面的查询中回答错误;2) 指令敏感性:当暴露于与训练数据相似但包含附加指令的数据集时,性能下降;3) 数值脆弱性:数值替换会急剧降低准确性;4) 记忆依赖:在缺少关键数据时,模型求助于猜测。这些挑战揭示了LLM对启发式回忆的依赖,以及在推理鲁棒性方面的挑战。Math-RoB数据集旨在通过利用缺失信息引发的幻觉来系统地评估LLM推理能力的鲁棒性。
常用场景
经典使用场景
Math-RoB 数据集主要用于评估大型语言模型在数学推理任务上的鲁棒性和泛化能力。通过对缺失信息触发的幻觉来揭示推理中的缺陷,从而全面地评估模型的鲁棒性,并推动更鲁棒的推理框架的发展。
解决学术问题
Math-RoB 数据集解决了大型语言模型在推理鲁棒性和泛化方面存在的关键难题,即在新颖或不完整的数据上性能显著下降,表明模型过于依赖记忆模式而非系统推理。该数据集揭示了四个关键独特的局限性:位置偏差、指令敏感性、数值脆弱性和记忆依赖性。
衍生相关工作
Math-RoB 数据集衍生了多项相关工作,包括:1)Math-RoB-RoLo,通过增加文本长度来评估模型提取相关信息的能力;2)Math-RoB-Define,通过替换定义来增强推理复杂性;3)Math-RoB-Number,通过数值变换来增加难度;4)Math-RoB-Delete,通过删除关键信息来评估模型在缺失信息下的推理能力。
以上内容由遇见数据集搜集并总结生成



