five

open-rs

收藏
github2025-03-21 更新2025-03-23 收录
下载链接:
https://github.com/knoveleng/open-rs
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集用于在资源受限的条件下,通过强化学习增强小型大语言模型的推理能力。数据集包括open-s1、open-deepscaler和open-rs,其中open-rs用于实验2和实验3。

This dataset is designed to enhance the reasoning capabilities of small large language models (LLMs) through reinforcement learning under resource-constrained conditions. The dataset consists of open-s1, open-deepscaler, and open-rs, where open-rs is employed for Experiments 2 and 3.
创建时间:
2025-03-18
原始信息汇总

Open RS 数据集概述

数据集背景

数据集内容

  • 数据集名称: open-rs
  • 数据集用途: 用于实验2和实验3的数学推理数据集。
  • 数据集地址: open-rs

数据集特点

  • 样本数量: 7,000个样本,总计42,000个输出。
  • 训练成本: 在4个A40 GPU上训练24小时,成本约为42美元。
  • 性能提升:
    • AMC23准确率从63%提升至80%。
    • AIME24准确率达到46.7%,优于o1-preview

数据集相关资源

数据集使用

  • 安装依赖:
    • 使用uv管理虚拟环境。
    • 安装vLLMFlashAttention
    • 登录Hugging Face和Weights & Biases。
    • 确保安装Git LFS以管理模型和数据集。
  • 训练:
    • 使用YAML配置文件进行训练,设置num_processes=3
    • 实验3需添加cosine_max_len参数。
  • 评估:
    • 使用lighteval进行评估,支持单GPU和多GPU设置。
    • 评估脚本eval.sh可自定义任务。

数据集性能

  • Open-RS1: 平均得分53.0%。
  • Open-RS2: 平均得分55.7%,AMC23准确率80.0%。
  • Open-RS3: 平均得分56.3%,AIME24准确率46.7%,优于o1-preview的44.6%。

数据集成本效益

  • 成本对比:
    • 7B模型: Qwen2.5-7B-SimpleRL(1,633美元),Eurus-2-7B-PRIME(1,088美元)。
    • 1.5B模型: DeepScaleR-1.5B-Preview(3,629美元),Still-3-1.5B-Preview(2,268美元)。

引用

如果该项目对您的工作有帮助,请引用:

@misc{dang2025reinforcementlearningreasoningsmall, title={Reinforcement Learning for Reasoning in Small LLMs: What Works and What Doesnt}, author={Quy-Anh Dang and Chris Ngo}, year={2025}, eprint={2503.16219}, archivePrefix={arXiv}, primaryClass={cs.LG}, url={https://arxiv.org/abs/2503.16219}, }

搜集汇总
数据集介绍
main_image_url
构建方式
Open RS数据集的构建依托于强化学习技术,旨在提升小型大语言模型(LLMs)在资源受限条件下的推理能力。研究团队基于1.5亿参数的`DeepSeek-R1-Distill-Qwen-1.5B`模型,在4块NVIDIA A40 GPU上进行了24小时的训练。通过采用Group Relative Policy Optimization(GRPO)算法,并结合精选的数学推理数据集,团队设计了三个实验以评估模型性能。数据集的构建过程注重高效性,仅使用7,000个样本,显著降低了训练成本。
特点
Open RS数据集的特点在于其专注于小型大语言模型的推理能力优化,同时兼顾资源效率。实验结果表明,该数据集显著提升了模型在AMC23和AIME24等数学推理任务中的表现,例如AMC23准确率从63%提升至80%,AIME24达到46.7%。此外,数据集在训练成本上表现出色,仅需42美元即可完成训练,远低于基线模型的数千美元开销。然而,数据集也揭示了优化不稳定性和训练长度限制等挑战。
使用方法
Open RS数据集的使用方法包括模型训练和评估两个主要环节。训练阶段,用户可通过YAML配置文件启动训练脚本,支持多GPU并行计算。评估阶段,用户可使用`lighteval`工具对模型进行性能测试,支持单GPU和多GPU配置。数据集还提供了详细的安装指南和依赖管理工具,如`uv`和`vLLM`,以确保环境配置的便捷性。此外,用户可通过Hugging Face平台访问预训练模型和数据集,进一步支持研究和开发工作。
背景与挑战
背景概述
Open RS数据集由Quy-Anh Dang和Chris Ngo等研究人员于2025年创建,旨在探索在资源受限条件下,通过强化学习(RL)提升小型大语言模型(LLMs)的推理能力。该数据集围绕1.5亿参数的模型`DeepSeek-R1-Distill-Qwen-1.5B`展开,基于Group Relative Policy Optimization(GRPO)算法,结合精选的数学推理数据集进行实验。研究结果表明,通过RL微调,模型在AMC23和AIME24等任务上的表现显著提升,同时训练成本大幅降低。这一成果为资源有限环境下的推理能力优化提供了新的思路,推动了小型LLMs在推理任务中的应用。
当前挑战
Open RS数据集在构建和应用过程中面临多重挑战。首先,在领域问题方面,小型LLMs的推理能力提升受限于模型规模和计算资源,如何在有限资源下实现高效训练和推理优化成为核心难题。其次,在数据集构建过程中,研究人员需克服优化不稳定性和训练长度限制等技术障碍,尤其是在长时间训练中,模型性能的波动和收敛问题尤为突出。此外,如何在低样本量下实现高精度推理,同时保持训练成本的可控性,也是该数据集构建中的关键挑战。这些问题的解决不仅需要算法创新,还需在数据集设计和实验方法上进行精细调整。
常用场景
经典使用场景
Open RS数据集在资源受限环境下的小型大语言模型(LLMs)推理能力增强研究中具有重要应用。通过使用强化学习(RL)技术,该数据集被用于训练和评估1.5亿参数的模型,显著提升了模型在数学推理任务中的表现。例如,AMC23的准确率从63%提升至80%,AIME24的准确率达到46.7%,展示了RL在小型LLMs中的有效性。
衍生相关工作
Open RS数据集的研究成果衍生了一系列相关经典工作。例如,基于该数据集训练的Open-RS1、Open-RS2和Open-RS3模型在多个数学推理任务中表现出色,超越了部分7B参数模型的性能。此外,该数据集的开源性质也促进了更多研究者探索RL在小型LLMs中的应用,推动了该领域的进一步发展。
数据集最近研究
最新研究方向
在资源受限环境下,如何通过强化学习提升小型大语言模型的推理能力,已成为当前自然语言处理领域的前沿研究方向。Open RS项目通过引入Group Relative Policy Optimization (GRPO)算法,结合精心设计的数学推理数据集,成功在1.5亿参数的模型上实现了显著的性能提升。实验结果表明,AMC23的准确率从63%提升至80%,AIME24的准确率达到46.7%,超越了现有基准模型。这一成果不仅展示了强化学习在小型模型上的高效性,还为资源有限的研究机构提供了低成本、高效的解决方案。未来,该领域的研究将进一步探索优化算法的稳定性,并扩展其在更复杂任务中的应用。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作