NuminaMath-20k

Hugging Face2026-04-11 更新2026-04-12 收录

下载链接：

https://huggingface.co/datasets/jasonrqh/NuminaMath-20k

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集与论文《Rethinking Generalization in Reasoning SFT: A Conditional Analysis on Optimization, Data, and Model Capability》相关，旨在研究大型语言模型（LLMs）在推理导向的监督微调（SFT）中使用长思维链（CoT）数据时的跨领域泛化能力。数据集包含五个主要部分：Math-CoT-20k（经过验证的长CoT数学推理数据）、Math-NoCoT-20k（去除CoT痕迹的数学数据）、Countdown-CoT-20k（用于程序性转移分析的倒计时算术游戏长CoT数据）、NuminaMath-20k（来自NuminaMath-1.5的无CoT数学数据）和DeepSeek-R1-20k（来自LUFFY数据集的DeepSeek-R1长CoT响应）。每个数据集包含20,480个样本，适用于推理能力提升、模型优化和跨领域泛化研究。

This dataset is associated with the paper *Rethinking Generalization in Reasoning SFT: A Conditional Analysis on Optimization, Data, and Model Capability*, which aims to investigate the cross-domain generalization ability of large language models (LLMs) when using long chain-of-thought (CoT) data for reasoning-oriented supervised fine-tuning (SFT). The dataset consists of five core components: 1. Math-CoT-20k: Verified long CoT mathematical reasoning datasets; 2. Math-NoCoT-20k: Mathematical datasets with all CoT traces removed; 3. Countdown-CoT-20k: Long CoT data for countdown arithmetic games for procedural transfer analysis; 4. NuminaMath-20k: CoT-free mathematical datasets sourced from NuminaMath-1.5; 5. DeepSeek-R1-20k: Long CoT responses of DeepSeek-R1 from the LUFFY dataset. Each subset contains 20,480 samples, making it suitable for research on reasoning capability enhancement, model optimization, and cross-domain generalization.

创建时间：

2026-04-06

搜集汇总

数据集介绍

构建方式

在数学推理领域，NuminaMath-20k数据集源自NuminaMath-1.5，通过精心筛选匹配的查询构建而成。该数据集移除了思维链（CoT）痕迹，仅保留最终答案，旨在探究无推理过程数据对模型泛化能力的影响。其构建过程强调数据质量与结构的一致性，确保样本的纯净性，为研究监督微调中数据形式的作用提供了坚实基础。

特点

NuminaMath-20k的核心特征在于其无思维链的数学问题形式，这区别于常见的带详细推理步骤的数据集。数据集包含20,480个样本，规模适中，适用于分析模型在缺乏显式推理指导下的学习行为。其设计凸显了数据结构的简约性，有助于揭示模型内在推理能力的形成机制，特别是在跨域泛化研究中扮演关键对照角色。

使用方法

该数据集主要用于大型语言模型在数学推理任务上的监督微调实验。研究人员可将其与带思维链的数据集对比，以评估数据形式对模型泛化和安全性的影响。使用时可结合不同优化策略和模型架构，探索训练动态与泛化性能之间的关系。数据集支持在Hugging Face或ModelScope平台直接加载，便于集成到现有训练流程中。

背景与挑战

背景概述

在大型语言模型推理能力微调领域，NuminaMath-20k数据集作为一项关键研究资源应运而生。该数据集源于2026年发表的论文《Rethinking Generalization in Reasoning SFT》，由Qihan Ren等研究人员构建，旨在探究监督微调过程中跨领域泛化能力的形成机制。其核心研究问题聚焦于数据质量、模型能力与优化策略如何共同影响推理模式的迁移，通过提供两万条无思维链标注的数学问题，为理解基础模型在数学推理任务上的知识迁移边界提供了实证基础。这项研究对推动可解释人工智能和领域自适应学习理论的发展具有重要启示。

当前挑战

NuminaMath-20k所应对的核心挑战在于揭示数学推理任务中跨领域泛化的复杂本质。具体而言，研究需解决模型在缺乏显式推理步骤标注时，如何从数学问题中提取可迁移的抽象模式这一难题。数据构建过程中面临双重挑战：一方面需要确保原始NuminaMath-1.5数据源的查询匹配精度，避免语义失真；另一方面需平衡数据规模与质量，在保持两万条样本量的同时，确保问题分布的多样性与难度梯度能够有效检验泛化假设。这些挑战共同构成了该数据集在推动推理能力可迁移性研究中的关键价值。

常用场景

经典使用场景

在大型语言模型推理能力微调的研究范式中，NuminaMath-20k数据集作为一项关键对照资源，其经典应用场景聚焦于探索监督微调过程中思维链结构对跨领域泛化性能的影响。该数据集源自NuminaMath-1.5，包含了大量无思维链的数学推理问题及其对应答案，为研究者提供了纯净的答案驱动训练样本。通过将其与包含长思维链的Math-CoT-20k等数据集进行对比实验，能够系统分析数据质量与结构如何塑造模型的推理泛化模式，特别是在验证低质量或缺乏中间步骤的数据是否会导致模型学习到误导性信号方面具有不可替代的价值。

解决学术问题

NuminaMath-20k数据集的核心学术贡献在于，它帮助揭示了推理微调中数据结构的决定性作用，解决了关于模型泛化能力来源的若干关键问题。该数据集通过提供无思维链的对照样本，实证了仅使用最终答案进行训练会限制模型学习可迁移的程序性推理模式，导致跨领域泛化能力显著弱于使用验证长思维链数据的情况。这一发现深化了学界对“数据质量”内涵的理解，即高质量数据不仅要求答案正确，更需包含清晰、可泛化的推理过程。研究进一步指出了模型能力与数据结构的交互效应，为构建更高效的推理微调数据提供了理论依据。

衍生相关工作

围绕NuminaMath-20k数据集所揭示的现象，一系列经典研究工作得以展开。其关联论文《Rethinking Generalization in Reasoning SFT》本身便是一项系统性研究，深入探讨了优化动态、数据与模型能力对泛化的条件性影响。该工作催生了针对“下降-恢复”训练轨迹、模型能力依赖的泛化趋势以及推理与安全的不对称泛化等主题的后续分析。基于其结论，社区进一步开源了涵盖不同模型规模、数据配置和训练阶段的完整模型集合，为后续研究提供了可复现的基准和深入分析的基础设施，推动了整个推理微调领域向更严谨、更细粒度的实证研究方向发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集