KlearReasoner-MathSub-30K

Hugging Face2025-08-13 更新2025-08-14 收录

下载链接：

https://huggingface.co/datasets/Suu/KlearReasoner-MathSub-30K

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个Klear-Reasoner Math RL数据集的子集，包含大约30K条数据。数据集通过筛选DeepSeek-R1-0120的输出获得，仅保留通过数学正确性和格式合规性规则验证器的多数完成的响应。该数据集旨在为强化学习提供高质量、准确的奖励信号，采用梯度保持剪辑策略优化(GPPO)方法。

创建时间：

2025-08-11

原始信息汇总

数据集概述

基本信息

数据集名称: KlearReasoner-MathSub-30K
许可证: Apache-2.0
语言: 英语 (en)
数据集大小: 30K条条目（完整数据集包含约88K条条目）

数据集来源

该数据集是Klear-Reasoner Math RL数据集的一个子集。
通过过滤DeepSeek-R1-0120的输出获得，每个提示生成16个响应，仅保留大多数完成通过基于规则的验证器的响应。

数据字段

data_source (string): 样本的来源标识符。
prompt (list of dict): 输入提示，以聊天格式存储的消息对象列表。
ability (string): 与样本相关的技能或任务类别。
reward_model (dict): 关于真实值或奖励信号的信息。
- ground_truth (string): 预期的正确答案（可能包含LaTeX格式）。
- style (string): 评估方法或类型，例如"rule"。
index_level_0 (int): 样本的内部索引或唯一标识符。

数据质量

所有样本均经过高质量过滤。
样本选择确保强化学习的准确奖励信号，遵循梯度保留剪裁策略优化（GPPO）方法。

引用

bibtex @misc{su2025klearreasoneradvancingreasoningcapability, title={Klear-Reasoner: Advancing Reasoning Capability via Gradient-Preserving Clipping Policy Optimization}, author={Zhenpeng Su and Leiyu Pan and Xue Bai and Dening Liu and Guanting Dong and Jiaming Huang and Wenping Hu and Fuzheng Zhang and Kun Gai and Guorui Zhou}, year={2025}, eprint={2508.07629}, archivePrefix={arXiv}, primaryClass={cs.LG}, url={https://arxiv.org/abs/2508.07629}, }

搜集汇总

数据集介绍

构建方式

在数学推理领域，数据质量对模型性能具有决定性影响。KlearReasoner-MathSub-30K数据集通过严谨的筛选流程构建，其核心方法在于利用DeepSeek-R1-0120模型为每个提示生成16组响应，随后采用基于规则的验证器进行数学正确性和格式合规性双重校验，仅保留多数响应通过验证的高质量样本。这种构建策略有效确保了数据可靠性，最终从原始88K数据集中精选出30K条优质样本。

特点

该数据集在数学推理任务中展现出显著优势，其核心特征体现在三个方面：数据字段设计包含提示信息、能力分类和带LaTeX格式的标准答案，为监督学习提供完整框架；所有样本均经过梯度保留剪裁策略优化处理，确保强化学习信号精确传递；实证研究表明，基于该数据集训练的模型在泛化能力和推理稳定性方面表现优异，特别适用于需要严格数学验证的场景。

使用方法

研究人员可通过HuggingFace生态系统快速加载该数据集，使用标准接口即可访问包含数据源标识、聊天式提示序列、任务分类标签等结构化字段。典型应用场景包括但不限于：作为数学推理模型的训练基准，验证梯度保留优化算法的有效性，或构建具备严格格式要求的自动评测系统。数据集配套的预印本论文和GitHub资源为深度应用提供了理论支持和技术指引。

背景与挑战

背景概述

KlearReasoner-MathSub-30K数据集是Klear-Reasoner Math RL数据集的一个子集，由研究人员Zhenpeng Su等人于2025年发布。该数据集专注于数学推理任务，旨在通过高质量的样本提升强化学习模型的推理能力。数据集构建过程中采用了DeepSeek-R1-0120模型生成的响应，并通过基于规则的验证器筛选出数学正确性和格式合规性较高的样本。这一工作为数学推理领域的研究提供了重要的数据支持，推动了梯度保留剪裁策略优化（GPPO）方法的发展，并在相关任务中展现了优异的泛化性能。

当前挑战

KlearReasoner-MathSub-30K数据集面临的挑战主要包括两方面：其一，数学推理任务的复杂性要求数据集必须涵盖多样化的数学问题和精确的解答，这对数据生成和验证过程提出了极高要求；其二，数据集的构建依赖于模型生成的响应，而确保这些响应在数学上的正确性和格式的规范性需要设计高效的验证机制。此外，如何在保持数据多样性的同时确保样本的高质量，也是构建过程中的关键挑战。

常用场景

经典使用场景

在数学推理领域，KlearReasoner-MathSub-30K数据集为研究者提供了一个高质量的基准测试平台。该数据集通过严格的规则验证筛选出数学正确性达标的样本，特别适用于训练和评估强化学习模型在复杂数学问题上的推理能力。其经典应用场景包括开发能够自动求解代数、几何及微积分问题的智能系统，为数学教育辅助工具和自动化解题系统提供了可靠的数据支持。

实际应用

在实际应用中，该数据集支撑的模型可部署于智能教育系统，实现个性化数学辅导和实时解题反馈。其高质量标注特性使其成为构建医疗数据分析、金融量化建模等领域中需要精确数学推导的AI系统的理想训练资源。数据集内含的LaTeX格式标准答案，更便于集成到学术论文自动校对等专业场景。

衍生相关工作

基于该数据集衍生的经典工作包括Klear-Reasoner-8B模型及其在代码生成领域的扩展应用。相关研究进一步探索了多模态推理框架，将数学符号处理能力迁移至物理仿真和工程优化等跨学科领域。数据集的验证方法论也为后续RLHF（基于人类反馈的强化学习）研究提供了重要参考范式。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集