five

CRITIC-math

收藏
arXiv2025-08-15 更新2025-08-19 收录
下载链接:
https://huggingface.co/datasets/YouchengHuang/CRITIC-math
下载链接
链接失效反馈
官方服务:
资源简介:
CRITIC-math数据集由四川大学、北京人工智能研究院、新加坡国立大学数据科学研究所的研究人员创建,旨在评估大型推理模型在面对信息不完整的问题时的提问能力。该数据集包含两类信息不完整的问题:缺少目标和缺少前提。通过重写开源数据集中的问题,并对重写的问题进行人工验证,CRITIC-math生成了1.3K个测试数据和5.3K个训练数据。数据集的特点是包含两种类型的不完整性、更具挑战性和多样化的数学问题、现实任务形式(即自由形式的问题)以及一个允许我们检查微调如何影响提问能力的训练集。

The CRITIC-math dataset was constructed by researchers from Sichuan University, Beijing Institute of Artificial Intelligence, and the Institute of Data Science at the National University of Singapore. Its core objective is to evaluate the question-asking abilities of large-scale reasoning models when presented with problems that contain incomplete information. This dataset covers two types of incompletely specified problems: those missing a target objective and those lacking necessary premises. By rewriting questions sourced from open-source datasets and conducting manual verification of the rewritten questions, CRITIC-math yields 1.3k test samples and 5.3k training samples. Key features of the dataset include two categories of incompleteness, challenging and diverse mathematical problems, realistic task formats (i.e., free-form questions), and a training split that enables the assessment of how fine-tuning influences question-asking capabilities.
提供机构:
四川大学,中国;北京人工智能研究院;新加坡国立大学数据科学研究所
创建时间:
2025-08-15
原始信息汇总

数据集概述

基本信息

  • 数据集名称: CRITIC-math
  • 存储位置: https://huggingface.co/datasets/YouchengHuang/CRITIC-math
  • 下载大小: 7,584,918 字节
  • 数据集大小: 16,418,894 字节

数据特征

  • 字段说明:
    • p: 字符串类型
    • s: 字符串类型
    • r: 字符串类型
    • l_g: 浮点数类型
    • type: 字符串类型

数据分割

  • math_500:
    • 样本数量: 857
    • 数据大小: 837,833 字节
  • omni_math:
    • 样本数量: 963
    • 数据大小: 1,095,098 字节
  • openr1_math:
    • 样本数量: 10,837
    • 数据大小: 14,485,963 字节
搜集汇总
数据集介绍
main_image_url
构建方式
CRITIC-math数据集的构建基于对开源数学问题库的改写,通过三阶段流程实现:首先将定义明确的问题分解为目标、前提和背景元素;随后通过移除关键元素(目标或前提)构造不完整问题;最终通过AI辅助和人工验证确保问题的不完整性质量。测试集包含1.3K个经人工验证的不完整问题,训练集含5.3K个样本,覆盖缺失目标和缺失前提两种不完整类型。
使用方法
使用CRITIC-math时需采用两阶段评估框架:首先通过隐式提示(仅提供问题)测试模型自主提问能力,再通过显式提示(明确要求提问)评估模型响应指令能力。评估指标包括提问率(CR)、思考长度(TLC/TLNC)和准确率(ACC)。对于训练用途,可采用监督微调(SFT)方法,利用数据集中标注的不完整原因作为监督信号,优化模型的信息获取能力。数据集同时支持细粒度行为分析,如通过解析模型思考步骤评估其识别不完整性的内在机制。
背景与挑战
背景概述
CRITIC-math数据集由四川大学、北京人工智能研究院及新加坡国立大学数据科学研究所的研究团队于2025年8月提出,旨在评估大型推理模型(LRMs)在数学问题中主动索取信息的能力。该数据集通过重构开放源码数据集中的完整数学问题,生成包含目标缺失和前提缺失两类不完整问题的测试集(1.3K)和训练集(5.3K),并经过人工验证确保质量。其核心研究问题是突破现有基准仅评估模型解决完整问题的局限,推动人工智能从“数学测验求解器”向具备主动信息索取能力的真智能体演进。该数据集为数学推理领域引入了对问题完整性的系统性评估框架,揭示了当前LRMs在真实场景应用的重大缺陷。
当前挑战
CRITIC-math面临的挑战主要体现在两方面:领域问题层面,现有LRMs在识别问题不完整性时表现出显著不足,仅能对50%的不完整问题主动索取信息,且易陷入过度思考(TLNC指标达基准2.11倍)和幻觉(90%缺失目标问题中虚构解答);构建过程层面,数据集需通过三阶段严格验证(问题分解、干扰元素重组、人工校验),确保生成的不完整问题既保留数学严谨性又符合现实模糊性,同时需平衡训练集中问题难度分布(Omni-MATH难度4以下筛选),避免模型因问题复杂度差异产生评估偏差。此外,监督微调中发现的“深度思考模式与信息索取能力间的矛盾”提出了模型架构设计的新挑战。
常用场景
经典使用场景
CRITIC-math数据集主要用于评估大型推理模型(LRMs)在面对信息不完整的数学问题时,能否主动请求补充信息的能力。该数据集通过改写已有数学问题,构造了目标缺失和前提缺失两类不完整问题,为研究模型在信息不完整场景下的表现提供了标准化的测试环境。
解决学术问题
CRITIC-math解决了当前评估体系仅关注模型解决完整数学问题的局限性,揭示了LRMs在主动信息请求方面的不足。通过系统分析模型在面对不完整问题时的表现,该数据集为理解模型过度思考、幻觉等行为提供了实证基础,推动了具有真正智能的AI代理的开发。
实际应用
在实际应用中,CRITIC-math可帮助优化AI助手的交互能力,使其在遇到信息不完整的用户查询时能够主动澄清而非盲目猜测。例如在数学辅导、智能客服等场景,基于该数据集训练的模型能更准确地识别问题缺陷并引导用户完善信息,显著提升服务可靠性。
数据集最近研究
最新研究方向
在数学推理领域,大型推理模型(LRMs)的评估主要集中在解决定义明确的问题上,而忽略了其在不完整问题中主动寻求信息的能力。CRITIC-math数据集的提出填补了这一空白,系统评估了LRMs在不完整数学问题中主动询问信息的能力。研究发现,当前LRMs在识别问题不完整性及主动寻求澄清方面表现不足,存在过度思考和幻觉等行为。此外,监督微调(SFT)虽显示出提升模型询问信息能力的潜力,但也揭示了在解决问题与询问信息之间存在的困境。这一研究为开发具备真正智能的数学推理模型提供了新的视角,强调了主动信息获取在人工智能发展中的重要性。
相关研究论文
  • 1
    Beyond Solving Math Quiz: Evaluating the Ability of Large Reasoning Models to Ask for Information四川大学,中国;北京人工智能研究院;新加坡国立大学数据科学研究所 · 2025年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作