DeepScaleR-Preview-Dataset
收藏DeepScaleR 数据集概述
数据集名称
DeepScaleR
数据集描述
DeepScaleR是一个开源项目,旨在完全民主化LLM的强化学习(RL),并在实际任务上大规模复现DeepSeek R1和OpenAI O1/O3。该项目开源了所有的努力,包括训练脚本(包括超参数)、模型、数据集和日志。
数据集版本
- DeepScaleR-1.5B-Preview:一个1.5B模型,超越了O1-Preview,并在AIME上实现了43.1%的Pass@1。
数据集组成
- 训练数据:位于
deepscaler/data/[train|test],包含预处理脚本。 - Parquet文件:通过运行
scripts/data/deepscaler_dataset.py将原始数据转换为Parquet文件。
使用说明
安装
bash cd deepscaler pip install -e ./verl pip install -e .
数据预处理
python python scripts/data/deepscaler_dataset.py
训练脚本
训练脚本位于scripts/train/,包括单节点和多节点设置。
单节点训练(8 GPUs)
bash export VLLM_ATTENTION_BACKEND=XFORMERS export MODEL_PATH="deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B" ./scripts/train/run_deepscaler_1.5b_8k.sh --model $MODEL_PATH
多节点训练(32 GPUs)
bash
头节点
export VLLM_ATTENTION_BACKEND=XFORMERS ray start --head
工作节点
export VLLM_ATTENTION_BACKEND=XFORMERS ray start --address=[RAY_ADDRESS]
头节点
./scripts/train/run_deepscaler_1.5b_[16k|24k].sh --model [CHECKPOINT_PATH]
评估
bash ./scripts/eval/eval_model.sh --model [CHECKPOINT_PATH] --datasets [DATASET1] [DATASET2] --output-dir [OUTPUT_DIR]
性能指标
| 模型 | AIME 2024 | MATH 500 | AMC 2023 | Minerva Math | OlympiadBench | Avg. |
|---|---|---|---|---|---|---|
| DeepScaleR-1.5B-Preview | 43.1 | 87.8 | 73.6 | 30.2 | 50.0 | 57.0 |
致谢
该项目的训练实验使用了修改后的Verl库,模型基于DeepSeek-R1-Distill-Qwen-1.5B,是Berkeley Sky Computing Lab和Berkeley AI Research的一部分。
引用
bibtex @misc{deepscaler2025, title={DeepScaleR: Surpassing O1-Preview with a 1.5B Model by Scaling RL}, author={Michael Luo and Sijun Tan and Justin Wong and Xiaoxiang Shi and William Tang and Manan Roongta and Colin Cai and Jeffrey Luo and Tianjun Zhang and Erran Li and Raluca Ada Popa and Ion Stoica}, year={2025}, howpublished={url{https://pretty-radio-b75.notion.site/DeepScaleR-Surpassing-O1-Preview-with-a-1-5B-Model-by-Scaling-RL-19681902c1468005bed8ca303013a4e2}}, note={Notion Blog} year={2025} }




