open-rs

github2025-03-21 更新2025-03-23 收录

下载链接：

https://github.com/knoveleng/open-rs

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集用于在资源受限的条件下，通过强化学习增强小型大语言模型的推理能力。数据集包括open-s1、open-deepscaler和open-rs，其中open-rs用于实验2和实验3。

This dataset is designed to enhance the reasoning capabilities of small large language models (LLMs) through reinforcement learning under resource-constrained conditions. The dataset consists of open-s1, open-deepscaler, and open-rs, where open-rs is employed for Experiments 2 and 3.

创建时间：

2025-03-18

原始信息汇总

Open RS 数据集概述

数据集背景

项目名称: Open RS
相关论文: Reinforcement Learning for Reasoning in Small LLMs: What Works and What Doesn’t
研究目标: 在资源受限的条件下，通过强化学习（RL）提升小型大语言模型（LLMs）的推理能力。
模型: 使用1.5亿参数的模型 DeepSeek-R1-Distill-Qwen-1.5B，在4个NVIDIA A40 GPU（每个48 GB VRAM）上训练24小时。

数据集内容

数据集名称: open-rs
数据集用途: 用于实验2和实验3的数学推理数据集。
数据集地址: open-rs

数据集特点

样本数量: 7,000个样本，总计42,000个输出。
训练成本: 在4个A40 GPU上训练24小时，成本约为42美元。
性能提升:
- AMC23准确率从63%提升至80%。
- AIME24准确率达到46.7%，优于o1-preview。

数据集相关资源

模型资源:
- Open-RS1
- Open-RS2
- Open-RS3
- 其他训练中的模型: knoveleng/OpenRS-GRPO, quyanh/OpenRS-GRPO
数据集资源:
集合资源: Open-RS Collection

数据集使用

安装依赖:
- 使用uv管理虚拟环境。
- 安装vLLM和FlashAttention。
- 登录Hugging Face和Weights & Biases。
- 确保安装Git LFS以管理模型和数据集。
训练:
- 使用YAML配置文件进行训练，设置num_processes=3。
- 实验3需添加cosine_max_len参数。
评估:
- 使用lighteval进行评估，支持单GPU和多GPU设置。
- 评估脚本eval.sh可自定义任务。

数据集性能

Open-RS1: 平均得分53.0%。
Open-RS2: 平均得分55.7%，AMC23准确率80.0%。
Open-RS3: 平均得分56.3%，AIME24准确率46.7%，优于o1-preview的44.6%。

数据集成本效益

成本对比:
- 7B模型: Qwen2.5-7B-SimpleRL（1,633美元），Eurus-2-7B-PRIME（1,088美元）。
- 1.5B模型: DeepScaleR-1.5B-Preview（3,629美元），Still-3-1.5B-Preview（2,268美元）。

引用

如果该项目对您的工作有帮助，请引用：

@misc{dang2025reinforcementlearningreasoningsmall, title={Reinforcement Learning for Reasoning in Small LLMs: What Works and What Doesnt}, author={Quy-Anh Dang and Chris Ngo}, year={2025}, eprint={2503.16219}, archivePrefix={arXiv}, primaryClass={cs.LG}, url={https://arxiv.org/abs/2503.16219}, }

搜集汇总

数据集介绍

构建方式

Open RS数据集的构建依托于强化学习技术，旨在提升小型大语言模型（LLMs）在资源受限条件下的推理能力。研究团队基于1.5亿参数的`DeepSeek-R1-Distill-Qwen-1.5B`模型，在4块NVIDIA A40 GPU上进行了24小时的训练。通过采用Group Relative Policy Optimization（GRPO）算法，并结合精选的数学推理数据集，团队设计了三个实验以评估模型性能。数据集的构建过程注重高效性，仅使用7,000个样本，显著降低了训练成本。

特点

Open RS数据集的特点在于其专注于小型大语言模型的推理能力优化，同时兼顾资源效率。实验结果表明，该数据集显著提升了模型在AMC23和AIME24等数学推理任务中的表现，例如AMC23准确率从63%提升至80%，AIME24达到46.7%。此外，数据集在训练成本上表现出色，仅需42美元即可完成训练，远低于基线模型的数千美元开销。然而，数据集也揭示了优化不稳定性和训练长度限制等挑战。

使用方法

Open RS数据集的使用方法包括模型训练和评估两个主要环节。训练阶段，用户可通过YAML配置文件启动训练脚本，支持多GPU并行计算。评估阶段，用户可使用`lighteval`工具对模型进行性能测试，支持单GPU和多GPU配置。数据集还提供了详细的安装指南和依赖管理工具，如`uv`和`vLLM`，以确保环境配置的便捷性。此外，用户可通过Hugging Face平台访问预训练模型和数据集，进一步支持研究和开发工作。

背景与挑战

背景概述

Open RS数据集由Quy-Anh Dang和Chris Ngo等研究人员于2025年创建，旨在探索在资源受限条件下，通过强化学习（RL）提升小型大语言模型（LLMs）的推理能力。该数据集围绕1.5亿参数的模型`DeepSeek-R1-Distill-Qwen-1.5B`展开，基于Group Relative Policy Optimization（GRPO）算法，结合精选的数学推理数据集进行实验。研究结果表明，通过RL微调，模型在AMC23和AIME24等任务上的表现显著提升，同时训练成本大幅降低。这一成果为资源有限环境下的推理能力优化提供了新的思路，推动了小型LLMs在推理任务中的应用。

当前挑战

Open RS数据集在构建和应用过程中面临多重挑战。首先，在领域问题方面，小型LLMs的推理能力提升受限于模型规模和计算资源，如何在有限资源下实现高效训练和推理优化成为核心难题。其次，在数据集构建过程中，研究人员需克服优化不稳定性和训练长度限制等技术障碍，尤其是在长时间训练中，模型性能的波动和收敛问题尤为突出。此外，如何在低样本量下实现高精度推理，同时保持训练成本的可控性，也是该数据集构建中的关键挑战。这些问题的解决不仅需要算法创新，还需在数据集设计和实验方法上进行精细调整。

常用场景

经典使用场景

Open RS数据集在资源受限环境下的小型大语言模型（LLMs）推理能力增强研究中具有重要应用。通过使用强化学习（RL）技术，该数据集被用于训练和评估1.5亿参数的模型，显著提升了模型在数学推理任务中的表现。例如，AMC23的准确率从63%提升至80%，AIME24的准确率达到46.7%，展示了RL在小型LLMs中的有效性。

衍生相关工作

Open RS数据集的研究成果衍生了一系列相关经典工作。例如，基于该数据集训练的Open-RS1、Open-RS2和Open-RS3模型在多个数学推理任务中表现出色，超越了部分7B参数模型的性能。此外，该数据集的开源性质也促进了更多研究者探索RL在小型LLMs中的应用，推动了该领域的进一步发展。

数据集最近研究