CRITIC-math-sft

Hugging Face2025-08-26 更新2025-08-28 收录

下载链接：

https://huggingface.co/datasets/YouchengHuang/CRITIC-math-sft

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个用于评估大型推理模型在处理不完整信息时主动询问缺失信息能力的新基准。与传统仅关注解决定义良好问题的基准不同，这个数据集包含两种类型的不完整问题，并具有多样的上下文。它的目的是揭示当前大型推理模型在信息寻求方面的局限性，并强调诸如过度思考和虚构行为等问题，为开发更加真正智能的人工智能系统铺平道路。

创建时间：

2025-08-14

原始信息汇总

数据集概述

基本信息

任务类别：文本生成
语言：英语
标签：推理、数学、大语言模型、不完整信息

数据集结构

特征

prompt：字符串类型
answer：字符串类型
thought：字符串类型

数据划分

train划分
- 样本数量：10837
- 字节大小：112472591
- 下载大小：49357111
- 数据集大小：112472591

背景与目的

该数据集由论文《Beyond Solving Math Quiz: Evaluating the Ability of Large Reasoning Models to Ask for Information》（https://huggingface.co/papers/2508.11252）提出，旨在评估大推理模型（LRMs）在面对不完整问题时主动询问缺失信息的关键能力。与传统仅关注解决明确定义问题的基准不同，该数据集包含两种类型的不完整问题，涵盖多样化上下文，旨在揭示LRMs在信息寻求方面的当前局限性，并突出过度思考和幻觉等行为，为更真正智能的AI系统铺平道路。

搜集汇总

数据集介绍

构建方式

在数学推理领域，CRITIC-math-sft数据集通过精心设计的不完整问题构建而成，涵盖多样化的上下文场景。该数据集源自学术论文提出的新基准，专门评估大型推理模型在信息缺失情境下主动寻求补充信息的能力。构建过程涉及生成两种类型的不完整数学问题，这些问题传统上被忽视，却更能揭示模型的实际推理局限。

特点

该数据集突出表现为其专注于不完整信息下的推理挑战，包含提示、答案和思维链三个核心字段。每个样本均设计为信息缺失状态，迫使模型展现信息寻求行为而非直接求解。这种独特结构能有效暴露模型的过度思考和幻觉倾向，为研究提供丰富的行为分析维度。

使用方法

使用者可通过加载标准文本生成格式接入该数据集，直接应用于训练或评估推理模型。典型流程包括将提示字段输入模型，对比其输出与预设答案和思维链的差异。重点观察模型是否主动识别信息缺口并提出合理询问，而非盲目生成答案，从而检验其真实推理能力。

背景与挑战

背景概述

数学推理作为人工智能领域的核心研究方向，长期以来依赖于结构完整的基准数据集推动模型发展。2024年推出的CRITIC-math-sft数据集由大型推理模型研究团队创建，其核心研究问题聚焦于模型在面对信息不完整问题时的主动信息获取能力。该数据集突破了传统数学问题求解的范式，通过构建多语境的不完整问题集合，揭示了模型在推理过程中的认知局限，为构建更具交互智能的推理系统提供了关键评估工具。

当前挑战

该数据集致力于解决数学推理中信息不完整场景下的模型应对挑战，包括模型对缺失信息的识别敏感性、主动询问策略的生成能力以及避免过度推理和幻觉现象的发生。在构建过程中，研究人员需要设计具有语义一致性的信息缺失问题，确保问题类型的多样性覆盖数学各个子领域，同时保持问题难度的平衡性，这对数据标注的逻辑严密性和语境真实性提出了较高要求。

常用场景

经典使用场景

在数学推理领域，CRITIC-math-sft数据集被广泛用于评估大型推理模型处理信息不完整问题的能力。研究者通过该数据集模拟现实场景中数学问题缺失关键条件的情况，测试模型是否能够主动识别信息缺口并提出合理询问，而非直接进行错误假设或盲目计算。

实际应用

在实际应用中，该数据集为开发教育辅助系统和智能问答平台提供了重要支撑。通过训练模型识别问题完整性并主动寻求补充信息，能够显著提升数学辅导系统、智能客服等场景的交互可靠性，避免因信息不全导致的错误响应，增强人工智能在真实环境中的实用价值。

衍生相关工作

基于CRITIC-math-sft数据集，研究者开展了多项关于推理模型行为分析的经典工作。这些研究深入探讨了大型语言模型在信息不完整情境下的决策机制，衍生出针对模型自我质疑能力和交互式推理框架的创新方案，推动了主动推理范式在人工智能领域的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集