NuminaMath-1.5-RL-Verifiable-cleaned
收藏Hugging Face2026-05-18 更新2026-05-21 收录
下载链接:
https://huggingface.co/datasets/annakosovskaia/NuminaMath-1.5-RL-Verifiable-cleaned
下载链接
链接失效反馈官方服务:
资源简介:
NuminaMath-1.5-RL-Verifiable-cleaned 是一个经过清理和验证的数学竞赛数据集子集,源自原始数据集 nlile/NuminaMath-1.5-RL-Verifiable(131,063行)。该数据集专为数学强化学习(RL)和监督微调(SFT)流程设计,通过多步骤处理确保数据质量。处理流程包括:1) 正则表达式与结构清理,去除问题与解决方案中的冗余前缀(如“Problem”、“Solution”、“Answer:”)、标记、图像引用和多部分问题,并删除解决方案长度不足30字符或包含缺失图像引用的行;2) 基于Qwen3-32B大语言模型的质量验证,对每个样本评估五个关键指标:是否为可验证的最终答案任务(is_verifiable_final_answer_task)、解决方案是否连贯(is_coherent_solution)、是否完整(is_complete)、是否包含最终答案(has_final_answer)以及置信度(confidence,分为high/medium/low);3) 使用Qwen3-32B和Qwen3-235B模型重新提取最终答案,以1-3种语义等价形式(如JSON列表)呈现,纠正原始答案提取错误。数据集提供两个配置:all包含全部100,050个训练样本,clean包含81,147个样本。每个样本包含以下字段:清理后的问题陈述(problem)、清理后的解决方案或思维链(solution)、答案等价形式列表(answer,JSON字符串)、问题类型(problem_type)、问题子类型(question_type)、数据源(source)、是否合成(synthetic)、上述五个验证指标、置信度、原始验证输出(validation_raw)以及问题ID(problem_id)。数据规模为:all配置161.7 MB,clean配置132.7 MB。该数据集适用于数学问题求解、答案生成、推理链评估等任务,用户可通过过滤高质量行(如验证指标均为真且置信度为高或中)用于RL/SFT训练。
创建时间:
2026-05-12
搜集汇总
数据集介绍

构建方式
NuminaMath-1.5-RL-Verifiable-cleaned数据集是基于nlile/NuminaMath-1.5-RL-Verifiable原始数据经过严谨清洗与验证流程构建而成。首先,通过正则表达式与结构化规则对文本前缀、后缀及冗余标记进行全面去除,剔除了包含图像引用、不完整或多部分问题等噪声数据。随后,利用Qwen3-32B大语言模型对每条数据进行多维度的质量评分,涵盖答案可验证性、推理解释连贯性、完整性及明确终态答案等指标。最终,采用Qwen3-32B与Qwen3-235B两级模型对答案进行重新提取与校验,生成1至3种语义等价的答案形式,显著提升了答案字段的准确性与可用性。
特点
该数据集的核心特点在于其高质量的标注体系与精细化的质量控制机制。相较于原始源数据,样本数量从131,063条精简至100,050条,而其中96,049条(约96%)拥有规范化的标准答案,为强化学习与监督微调流水线提供了坚实的基准。数据字段涵盖问题本身、解答过程、多种形式的等价答案、来源标记、人工合成标识以及多项由大模型评估的布尔型质量指标,如是否具有可验证终态答案、解释是否连贯、是否完整等。此外,置信度评分(高/中/低)与原始验证输出的保留,为研究人员提供了灵活的筛选维度与调试依据。
使用方法
用户可通过Hugging Face Datasets库便捷加载该数据集,并利用其内置的质量字段进行高效筛选以实现针对性训练。典型使用方法为先加载训练集,然后采用过滤操作保留满足所有质量标准的高质量子集,具体过滤条件包括答案可验证、解释连贯、解答完整、包含终态答案、置信度不低于中等水平且答案字段非空。每条记录的answer字段为JSON格式的列表,包含1至3种语义等价的答案形式,加载后可通过json.loads方法解析。该设计使得数据集能够无缝适配各类数学推理的强化学习与监督微调管线,极大降低了数据预处理成本。
背景与挑战
背景概述
NuminaMath-1.5-RL-Verifiable-cleaned数据集由研究团队于2025年构建,其核心目标是为数学推理领域提供高质量、可验证的强化学习与监督微调训练资源。该数据集源于原始NuminaMath-1.5-RL-Verifiable,经过系统性清洗与多阶段质量校验,最终保留超过十万道数学竞赛题及配套解答。研究人员特别关注可验证答案任务的筛选,通过大语言模型对题目类型、解答连贯性、完整性及最终答案存在性进行严格评估,显著提升了数据集的纯净度与可用性。这一工作有效填补了数学推理训练数据中高质量可验证样本的稀缺性,为提升模型在数学竞赛场景下的推理能力奠定了坚实基础。
当前挑战
该数据集主要应对两重挑战:其一,数学推理领域长期面临训练数据质量良莠不齐的问题,尤其存在题目中泄露答案、解答缺失推理过程、包含图片依赖导致文本不完整等缺陷,严重制约模型学习效果。原始数据中大量问题包含竞赛编号、主题标签等非必要前缀,部分解答仅给出答案而无推理链,且存在多部分问题导致答案提取不可靠。其二,构建过程中需克服自动清洗与人工验证之间的平衡难题,包括设计正则表达式去除各类冗余标记、通过大语言模型对十万余条样本进行多维质量评分、以及采用两级模型协同完成最终答案的语义等价重提取,确保数据集的准确性与一致性。
常用场景
经典使用场景
在数学推理与强化学习的交叉领域中,NuminaMath-1.5-RL-Verifiable-cleaned数据集凭借其精心清洗与验证的特性,成为训练和评估数学大语言模型的核心资源。研究者常将其用于监督微调与基于强化学习的对齐训练,特别是那些需要对最终答案进行自动验证的数学推理任务。数据集中每条样本均包含经过LLM验证的题目与解答,并附有多个语义等价的最终答案形式,这使其特别适合构建奖励模型或作为策略优化中的可验证反馈信号来源。通过过滤出高质量子集(如is_verifiable_final_answer_task为真的样本),科研人员能够高效地构建专注于数学竞赛级问题的推理训练流水线。
实际应用
在实际应用中,NuminaMath-1.5-RL-Verifiable-cleaned数据集直接服务于智能教育系统的数学解题能力提升。基于该数据集微调的模型可用于自动生成竞赛级数学题的详细解题步骤,辅助在线学习平台为学生提供即时推理反馈。数据集中清晰标注的题目类型与可验证答案特征,使开发者能够构建针对特定数学问题类别(如代数、组合数学)的专门化推理模块。此外,该数据集还支撑着数学竞赛训练工具的研发,通过提供大量高质量的问题-解答对,帮助系统自动评估学生答案的正确性,并生成个性化的纠错建议。
衍生相关工作
围绕该数据集已衍生出多项具有影响力的研究工作。其清洗与验证流程的详细记录为后续数据工程提供了可复现的范例,许多团队借鉴其双阶段LLM验证与多形式答案提取策略来构建自己的数学推理数据集。在模型训练方面,该数据集常被用作数学领域强化学习启动的“冷启动”数据,研究者基于此探索了奖励模型的可验证性设计,以及如何利用其高置信度样本来稳定策略梯度训练。此外,数据集的过滤逻辑(如is_verifiable_final_answer_task等字段)启发了针对“可证明型”与“可计算型”数学问题的分类研究,催生了更精细的数学推理基准测试集。
以上内容由遇见数据集搜集并总结生成



