open-s1 dataset 和 open-deepscaler dataset

Name: open-s1 dataset 和 open-deepscaler dataset
Creator: 越南科学与技术大学(VNU University of Science, Vietnam), 新加坡Knovel工程实验室(Knovel Engineering Lab, Singapore)
Published: 2025-03-20 23:13:23
License: 暂无描述

arXiv2025-03-20 更新2025-03-22 收录

下载链接：

https://github.com/knoveleng/open-rs

下载链接

链接失效反馈

官方服务：

资源简介：

本文中使用的数据集是open-s1 dataset和open-deepscaler dataset，这两个数据集都是从现有数据集中筛选和精炼而来，专注于数学推理任务。open-s1 dataset包含18615个高质量的数学推理例子，而open-deepscaler dataset包含21044个例子。这两个数据集结合了规模和特异性，使得小型LLM在资源受限的情况下能够进行有效的训练。

提供机构：

越南科学与技术大学(VNU University of Science, Vietnam), 新加坡Knovel工程实验室(Knovel Engineering Lab, Singapore)

创建时间：

2025-03-20

搜集汇总

数据集介绍

构建方式

open-s1 dataset 和 open-deepscaler dataset 的构建基于两个主要来源：s1 dataset 和 DeepScaleR dataset。首先，s1 dataset 通过筛选保留包含 LaTeX 命令 \boxed{} 的数学问题，进一步使用 DeepSeek-R1-Distill-Qwen-1.5B 模型去除简单问题，最终通过 Qwen2.5-7B-Instruct 模型去除噪声和多部分问题，得到 18,615 个高质量的数学推理样本。DeepScaleR dataset 则通过 Qwen2.5-Math-7B-Instruct 模型进一步过滤，去除简单问题，最终得到 21,044 个数学推理样本。最终，两个数据集合并形成包含 39,659 个数学推理问题的数据集。

特点

该数据集的特点在于其高质量和针对性。数据集经过多轮筛选和过滤，确保每个样本都具有较高的数学推理难度和质量。此外，数据集规模适中，适合在资源受限的环境下进行训练，尤其是针对小型语言模型的强化学习任务。数据集中的问题涵盖了广泛的数学领域，能够有效提升模型在复杂数学推理任务中的表现。

使用方法

该数据集主要用于小型语言模型的强化学习训练，特别是针对数学推理能力的提升。通过结合 Group Relative Policy Optimization (GRPO) 算法，模型可以在有限的资源下进行高效训练。训练过程中，模型通过生成多个输出并根据奖励函数（如准确性、格式和余弦奖励）进行优化。数据集的使用方法包括在数学推理基准测试（如 AMC23 和 MATH-500）上评估模型的性能，并通过零样本 pass@1 指标衡量模型的推理能力。

背景与挑战

背景概述

open-s1 dataset 和 open-deepscaler dataset 是由 Quy-Anh Dang 和 Chris Ngo 等研究人员在2025年创建的，旨在通过强化学习（RL）提升小型大语言模型（LLMs）的推理能力。这些数据集的核心研究问题是如何在资源受限的环境下，通过高效的RL算法和高质量的数据集，提升小型LLMs在数学推理任务中的表现。研究团队基于1.5亿参数的DeepSeek-R1-Distill-Qwen-1.5B模型，在4个NVIDIA A40 GPU上进行了24小时的训练，展示了在有限资源下实现显著推理能力提升的潜力。该研究为资源受限环境下的AI推理能力提升提供了新的思路，并开源了相关代码和数据集，推动了该领域的进一步发展。

当前挑战

open-s1 dataset 和 open-deepscaler dataset 面临的挑战主要包括两个方面。首先，在领域问题方面，尽管RL算法能够显著提升小型LLMs的推理能力，但在长时间训练过程中，模型容易出现优化不稳定和输出长度受限的问题，尤其是在处理复杂数学问题时，模型可能无法生成完整的推理链。其次，在数据集构建过程中，研究人员需要从多个来源（如s1 dataset和DeepScaleR dataset）筛选和整合高质量的数学推理数据，确保数据的多样性和挑战性。此外，如何在有限的训练时间和计算资源下，平衡数据规模与模型性能，也是一个重要的挑战。这些挑战为未来的研究提供了方向，尤其是在优化算法和数据集设计方面。

常用场景

经典使用场景

Open-S1和Open-DeepScaler数据集在数学推理领域具有广泛的应用，尤其是在资源受限的环境下。这些数据集通过精心筛选和优化，专注于高质量的数学问题，能够有效支持小型语言模型的强化学习训练。其经典使用场景包括在有限的计算资源下，通过强化学习算法（如GRPO）对小型语言模型进行微调，以提升其在数学推理任务中的表现。例如，在AMC23和AIME24等数学竞赛基准测试中，使用这些数据集训练的模型能够显著提升推理准确率。

实际应用

在实际应用中，Open-S1和Open-DeepScaler数据集为教育、竞赛和自动化解题系统提供了强大的支持。例如，在教育领域，这些数据集可以用于开发智能辅导系统，帮助学生解决复杂的数学问题。在数学竞赛中，基于这些数据集训练的模型能够为参赛者提供高效的解题辅助。此外，自动化解题系统也可以利用这些数据集提升其推理能力，从而在更广泛的数学任务中实现自动化。这些应用场景展示了数据集在提升模型推理能力方面的实际价值。

衍生相关工作

Open-S1和Open-DeepScaler数据集的发布推动了多个相关研究工作的开展。例如，基于这些数据集的研究提出了GRPO算法在小型语言模型中的应用，进一步优化了模型的推理性能。此外，这些数据集还启发了其他研究团队探索在资源受限环境下如何通过强化学习提升模型的推理能力。相关工作包括对混合难度问题的研究、余弦奖励机制的引入以及对多语言模型优化的探索。这些衍生工作不仅扩展了数据集的应用范围，也为小型语言模型的未来发展提供了新的研究方向。

以上内容由遇见数据集搜集并总结生成

社区讨论

#经验分享

ArXiv论文作者在Figshare上也放了数据集: https://figshare.com/collections/FUMPE/4107803/1

5,000+

优质数据集

54 个

任务类型

进入经典数据集