saramal/NuminaMath-1.5-filtered_boxed_cot

Name: saramal/NuminaMath-1.5-filtered_boxed_cot
Creator: saramal
Published: 2026-05-01 07:26:54
License: 暂无描述

Hugging Face2026-05-01 更新2026-05-03 收录

下载链接：

https://hf-mirror.com/datasets/saramal/NuminaMath-1.5-filtered_boxed_cot

下载链接

链接失效反馈

官方服务：

资源简介：

--- dataset_info: features: - name: query dtype: string - name: response dtype: string - name: answer dtype: string - name: problem_type dtype: string - name: source dtype: string splits: - name: train num_bytes: 302939633.0 num_examples: 238291 download_size: 147721579 dataset_size: 302939633.0 configs: - config_name: default data_files: - split: train path: data/train-* ---

提供机构：

saramal

搜集汇总

数据集介绍

构建方式

NuminaMath-1.5-filtered_boxed_cot 数据集基于大规模数学语料库构建，通过精细过滤与筛选流程，提取包含最终答案以框定形式（boxed）呈现的样本。在构建过程中，团队对原始数据中的解题链式推理（Chain-of-Thought, CoT）进行了系统性清洗与标准化，确保每条数据均包含明确的问题（query）、完整的推理过程（response）及其最终答案（answer）。此外，还标注了问题类型（problem_type）与数据来源（source），以支持多维度分析与溯源。最终形成包含约23.8万条训练样本的高质量数学推理数据集，总大小约303 MB。

特点

该数据集的核心特点在于其结构化的数学推理范式，每个样本均整合了三要素：清晰的问题描述、详尽的逻辑推理链以及明确框定的最终答案。这种设计强化了模型从问题到答案的因果推理能力，尤其适用于训练大语言模型进行符号数学运算与多步推导。同时，问题类型与来源的元信息标注使数据集具备良好的可解释性与领域覆盖度，能够支撑跨不同数学子领域的泛化研究。数据经过严格滤除噪声与格式统一，保证了训练过程的高效性与稳定性。

使用方法

数据集以 HuggingFace Datasets 标准格式存储，包含单一训练拆分（train），可通过 HuggingFace 的 `load_dataset` 函数直接加载。使用时，建议采用监督微调（Supervised Fine-Tuning, SFT）范式，将 `query` 字段作为输入，`response`（或 `answer`）字段作为输出目标，以训练模型生成具备逐步推理能力的数学解答。此外，研究者也可将 `response` 视为中间推理步骤序列，利用 `answer` 作为最终监督信号，构建偏好对齐或强化学习任务。数据集的便捷格式与清晰字段定义使其易于集成到现有训练流水线中。

背景与挑战

背景概述

NuminaMath-1.5-filtered_boxed_cot 数据集由Numina研究团队于近年创建，聚焦于数学推理与链式思维（Chain-of-Thought, CoT）的增强学习。该数据集包含约23.8万条训练样本，每条数据由查询（query）、响应（response）、答案（answer）、问题类型（problem_type）及来源（source）构成，旨在为大型语言模型提供结构化的数学推理训练素材。其在数学推理领域的影响力体现在两个方面：一是通过精细化筛选确保数学问题的高质量覆盖，二是采用“框式答案”（boxed answer）引导模型输出精确结果，从而推动模型在数学定理证明、竞赛解题等复杂推理任务中的性能提升。作为开源资源，NuminaMath-1.5 为后续研究提供了可复现的基准。

当前挑战

数据集所解决的领域问题在于提升大型语言模型在数学推理中的准确性与可解释性，传统模型常因缺乏严谨的推理步骤而陷入错误答案。构建过程中遇到的核心挑战包括：从海量数学文本中自动提取并校验链式推理路径的复杂性，需平衡数据多样性与噪声过滤；对多源数学问题（如竞赛题、教科书习题）进行统一格式化的难度，以及确保不同语言背景下数学表达的一致性。此外，如何设计有效的“框式答案”标注策略以适配多种推理形式（如代数、几何），同时避免过拟合，亦是数据构建中的关键难题。这些挑战使得数据集在规模扩展与质量保障之间需持续优化。

常用场景

经典使用场景

NuminaMath-1.5-filtered_boxed_cot数据集专为数学推理任务中的链式思维（Chain-of-Thought）生成而设计，是训练和评估大型语言模型在数学领域问题求解能力的重要资源。该数据集以Question-Answer格式组织，每条样本包含查询语句、标准答案以及对应的链式思维推理过程。经典使用场景包括：作为微调数据集提升开源大模型在竞赛数学、奥林匹克数学等复杂数学问题上的解析表现；作为评估基准，测试模型在多步推理、逻辑推导与数学符号理解方面的综合能力。同时，它广泛应用于零样本或少样本场景下的数学问答任务，助力模型学习如何从问题出发，逐步演算直至得出最终结论。

解决学术问题

该数据集着力攻克当前人工智能在形式化推理与数学符号处理领域面临的若干关键难题。首先，它有效缓解了大型语言模型在数学推理任务中常见的“直觉式猜测”倾向，通过提供高质量的链式思维注释，引导模型习得系统化、步骤化的解题策略。其次，数据集聚焦于包含复杂方程、几何证明及数论问题的多样化题型，为解决模型对数学逻辑的泛化能力不足这一经典挑战提供了宝贵训练素材。？它还为评测模型在约束条件下（如有限输出长度）是否仍能保持推理连贯性设定了高标准的参照系。其意义在于推动语言模型从纯粹的模式匹配向真正的符号推理迈进，为构造具备数学素养的通用人工智能奠定了数据基础。

衍生相关工作

基于NuminaMath-1.5-filtered_boxed_cot数据集，研究社区已衍生出一系列颇具影响力的工作。其中，经典成果包括将链式思维蒸馏至更小参数模型的“MathDistill”系列工作，实现了教学相长的知识迁移。另一项代表性工作是“GRPO-verifiable-math”，它结合强化学习框架，利用该数据集中的结构化答案构建自动验证的奖励模型，显著提升了数学推理的准确度与稳定度。同时，也有研究者参照此数据集的注释范式构建了多语言数学推理数据集M-ART，探索跨语言数学问题的推理鲁棒性。这些衍生工作共同推动了数学AI从封闭测试向开放式推理能力的演进。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集