DeepScaleR-Preview-Dataset

github2025-02-16 更新2025-02-13 收录

下载链接：

https://github.com/agentica-project/deepscaler

下载链接

链接失效反馈

官方服务：

资源简介：

DeepScaleR-Preview-Dataset 是一个用于训练和评估 DeepScaleR 模型的数据集，包含了数学问题的上下文和相应的答案，用于支持强化学习在大型语言模型中的应用。

The DeepScaleR-Preview-Dataset is a dataset intended for training and evaluating the DeepScaleR model. It encompasses contexts of mathematical problems along with their corresponding answers, supporting the application of reinforcement learning in large language models (LLMs).

创建时间：

2025-01-26

原始信息汇总

DeepScaleR 数据集概述

数据集名称

DeepScaleR

数据集描述

DeepScaleR是一个开源项目，旨在完全民主化LLM的强化学习（RL），并在实际任务上大规模复现DeepSeek R1和OpenAI O1/O3。该项目开源了所有的努力，包括训练脚本（包括超参数）、模型、数据集和日志。

数据集版本

DeepScaleR-1.5B-Preview：一个1.5B模型，超越了O1-Preview，并在AIME上实现了43.1%的Pass@1。

数据集组成

训练数据：位于deepscaler/data/[train|test]，包含预处理脚本。
Parquet文件：通过运行scripts/data/deepscaler_dataset.py将原始数据转换为Parquet文件。

使用说明

安装

bash cd deepscaler pip install -e ./verl pip install -e .

数据预处理

python python scripts/data/deepscaler_dataset.py

训练脚本

训练脚本位于scripts/train/，包括单节点和多节点设置。

单节点训练（8 GPUs）

bash export VLLM_ATTENTION_BACKEND=XFORMERS export MODEL_PATH="deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B" ./scripts/train/run_deepscaler_1.5b_8k.sh --model $MODEL_PATH

多节点训练（32 GPUs）

bash

头节点

export VLLM_ATTENTION_BACKEND=XFORMERS ray start --head

工作节点

export VLLM_ATTENTION_BACKEND=XFORMERS ray start --address=[RAY_ADDRESS]

头节点

./scripts/train/run_deepscaler_1.5b_[16k|24k].sh --model [CHECKPOINT_PATH]

评估

bash ./scripts/eval/eval_model.sh --model [CHECKPOINT_PATH] --datasets [DATASET1] [DATASET2] --output-dir [OUTPUT_DIR]

性能指标

模型	AIME 2024	MATH 500	AMC 2023	Minerva Math	OlympiadBench	Avg.
DeepScaleR-1.5B-Preview	43.1	87.8	73.6	30.2	50.0	57.0

致谢

该项目的训练实验使用了修改后的Verl库，模型基于DeepSeek-R1-Distill-Qwen-1.5B，是Berkeley Sky Computing Lab和Berkeley AI Research的一部分。

引用

bibtex @misc{deepscaler2025, title={DeepScaleR: Surpassing O1-Preview with a 1.5B Model by Scaling RL}, author={Michael Luo and Sijun Tan and Justin Wong and Xiaoxiang Shi and William Tang and Manan Roongta and Colin Cai and Jeffrey Luo and Tianjun Zhang and Erran Li and Raluca Ada Popa and Ion Stoica}, year={2025}, howpublished={url{https://pretty-radio-b75.notion.site/DeepScaleR-Surpassing-O1-Preview-with-a-1-5B-Model-by-Scaling-RL-19681902c1468005bed8ca303013a4e2}}, note={Notion Blog} year={2025} }

搜集汇总

数据集介绍

构建方式

DeepScaleR-Preview-Dataset数据集的构建基于大规模的强化学习训练，针对大型语言模型（LLM）进行优化。该数据集涵盖了从数据预处理到模型训练的完整流程，包括原始训练数据、预处理脚本、训练脚本以及评估日志等。通过迭代扩展上下文长度，从8K到16K再到24K，数据集支持了Deepseek的GRPO算法的逐步训练，旨在模拟人类的思考过程。

特点

该数据集的特点在于开放源代码和开放数据，使得研究者能够复现DeepScaleR-1.5B模型在AIME2024任务上的表现。数据集包含的训练脚本支持单节点和多节点训练设置，允许社区尝试不同的模型、上下文长度和强化学习参数。此外，数据集提供了详尽的评估日志，包括对多个数学问题的生成样本，便于进行模型性能的比较。

使用方法

使用DeepScaleR-Preview-Dataset数据集，用户首先需要安装相应的环境，然后通过预处理脚本将原始数据转换为训练所需的Parquet文件。接着，用户可以运行提供的训练脚本进行单节点或多节点训练。训练完成后，用户可以通过评估脚本来评估模型的性能，生成数学问题的样本，并计算Pass@1准确度。数据集的详细使用方法和示例代码均可在其GitHub页面上找到。

背景与挑战

背景概述

DeepScaleR项目旨在实现大规模的强化学习（RL）在大型语言模型（LLM）中的应用，并能够重现DeepSeek R1以及OpenAI的O1/O3模型在真实任务中的表现。该项目由Berkeley Sky Computing Lab和Berkeley AI Research共同完成，于2025年发布1.5B模型，名为DeepScaleR-1.5B-Preview，该模型在AIME评测中取得了43.1%的Pass@1成绩。项目开源了训练脚本、模型、数据集和日志，以供社区使用和复现。

当前挑战

该数据集在构建过程中面临的挑战包括如何在大规模数据集上有效地训练和迭代强化学习算法，以及如何在不同的上下文长度下调整模型以优化性能。此外，DeepScaleR-Preview-Dataset在解决数学问题领域的问题时，也面临着如何提高模型的泛化能力和准确性的挑战。

常用场景

经典使用场景

在深度学习领域，强化学习（RL）的应用尤为重要。DeepScaleR-Preview-Dataset 数据集为此提供了一个开源平台，其经典使用场景在于支持大型语言模型（LLM）的RL训练，尤其是通过扩展上下文长度来提高模型在数学问题解答等任务上的表现。

解决学术问题

该数据集解决了强化学习在处理复杂任务，如数学问题解答时，因上下文长度限制而导致模型性能瓶颈的问题。通过不断扩展上下文长度，DeepScaleR-Preview-Dataset 使得模型能够在更广泛的场景下进行有效学习，提高了学术研究的效率和质量。

衍生相关工作

基于DeepScaleR-Preview-Dataset，已经衍生出了一系列相关工作，包括对DeepSeek R1和OpenAI O1/O3模型的大规模复现和改进。这些工作不仅推动了强化学习在LLM中的应用，也为相关领域的学术研究提供了新的视角和方法论。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集