RLVR-Linearity-Dataset

Hugging Face2026-02-01 更新2026-02-02 收录

下载链接：

https://huggingface.co/datasets/Miaow-Lab/RLVR-Linearity-Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

本数据集是为研究论文《Not All Steps are Informative: On the Linearity of LLMs' RLVR Training》整理的训练和评估资源，作为研究中标准RL训练(GRPO)实验的主要数据源。数据集采用Parquet格式存储，包含两个分片：训练集（deepscaler-preview.parquet）是从agentica-org/DeepScaleR-Preview-Dataset预处理而来，专门为RLVR任务格式化；测试集（aime24.parquet）则源自AIME 2024数学问题。该数据集的发布旨在提高研究的可复现性和易用性，已提取纯问题陈述并添加了verl框架所需的系统指令，使研究人员可直接将数据集用于GRPO训练流程而无需额外预处理。数据集授权为MIT，主要语言为英语，适用于强化学习和数学相关任务。

创建时间：

2026-01-25

原始信息汇总

RLVR-Linearity-Dataset 数据集概述

数据集基本信息

数据集名称: RLVR-Linearity-Dataset
发布者: Miaow-Lab
许可证: MIT
主要语言: 英语 (en)
标签: 强化学习 (reinforcement-learning), 数学 (math)

数据集来源与目的

该数据集是为论文 "Not All Steps are Informative: On the Linearity of LLMs RLVR Training" 整理和策划的训练与评估工件。它作为我们研究中标准强化学习（GRPO）实验的主要数据源。

相关论文: https://arxiv.org/pdf/2601.04537v2
相关代码库: https://github.com/Miaow-Lab/RLVR-Linearity
相关集合: https://hf.co/collections/Miaow-Lab/rlvr-linearity

数据集结构与内容

数据集以Parquet格式存储，包含以下两个部分：

训练集 (deepscaler-preview.parquet): 用于GRPO训练的数据集。它是 agentica-org/DeepScaleR-Preview-Dataset 的预处理版本，专门为RLVR任务进行了格式化。
测试集 (aime24.parquet): 源自AIME 2024问题的评估集。此部分改编自 math-ai/aime24，以确保评估的一致性。

数据集发布动机

虽然原始数据源是公开可用的，但我们发布此特定版本是为了促进可复现性和易用性。我们提取了纯问题陈述，并附加了verl框架所需的特定系统指令。这使得研究人员无需额外预处理步骤，即可将此数据集直接插入GRPO训练流程。

搜集汇总

数据集介绍

构建方式

在强化学习与数学推理交叉领域，RLVR-Linearity-Dataset的构建体现了严谨的数据工程理念。该数据集源自两项公开资源：训练集通过对agentica-org/DeepScaleR-Preview-Dataset进行专门化预处理，转化为适用于RLVR任务的格式；测试集则从math-ai/aime24中提取AIME 2024数学竞赛问题并加以适配。构建过程中，研究者精心提取了纯净的问题陈述，并整合了verl框架所需的系统指令，从而形成可直接用于GRPO训练流程的结构化数据，确保了实验的可复现性与即用性。

特点

该数据集的核心特征在于其高度专业化与任务导向性。作为研究大型语言模型在强化学习价值回归训练中线性特性的基准数据，它严格遵循GRPO实验的标准需求，提供了经过统一格式化的训练与评估样本。数据集不仅保留了原始数学问题的复杂性与挑战性，还通过系统指令的嵌入，实现了与训练框架的无缝对接。这种设计使得研究者能够聚焦于模型行为分析，无需分散精力于数据预处理，从而提升了实验效率与结果的可比性。

使用方法

使用本数据集时，研究者可直接将其加载至基于verl框架的GRPO训练管道中。训练集deepscaler-preview.parquet用于模型策略的优化与学习，而测试集aime24.parquet则作为评估模型泛化能力与线性特征的基准。由于数据已包含必要的指令与问题表述，用户无需进行额外的清洗或格式化操作，即可开展训练与评估实验。这种即插即用的特性，显著降低了实验门槛，支持研究社区在强化学习与数学推理领域进行高效、可复现的探索。

背景与挑战

背景概述

RLVR-Linearity-Dataset 诞生于强化学习与大型语言模型交叉研究的前沿探索中，由 Miaow-Lab 团队于 2024 年构建，旨在支撑其学术论文《Not All Steps are Informative: On the Linearity of LLMs' RLVR Training》中的实验分析。该数据集聚焦于强化学习价值回归训练中线性特性的核心研究问题，通过整合 DeepScaleR-Preview 与 AIME 2024 数学竞赛题目，为评估语言模型在复杂推理任务中的训练动态提供了标准化基准。其发布显著促进了强化学习对齐领域的方法可复现性与比较研究，成为理解模型训练效率与泛化能力的重要资源。

当前挑战

该数据集致力于应对强化学习价值回归训练中训练信号稀疏性与非线性动态的固有挑战，旨在揭示语言模型在迭代优化过程中哪些步骤真正贡献于性能提升。在构建过程中，研究者面临双重困难：一是原始数学问题数据格式异构，需统一转化为适用于 GRPO 框架的结构化输入；二是确保评估集（AIME 2024）具有足够的难度与多样性，以有效检验模型在未见问题上的泛化能力，同时维持与训练集（DeepScaleR-Preview）在任务范式上的一致性，避免分布偏移干扰结论可靠性。

常用场景

经典使用场景

在强化学习与大型语言模型融合的研究领域中，RLVR-Linearity-Dataset为探索训练动态提供了关键实验基础。该数据集主要应用于标准GRPO训练流程，通过精心设计的数学问题序列，支持研究者分析模型在强化学习价值奖励训练中的线性表现。其经典使用场景聚焦于评估训练步骤的信息量差异，帮助揭示哪些训练阶段对模型性能提升具有实质性贡献，从而优化训练策略与资源分配。

实际应用

在实际应用层面，RLVR-Linearity-Dataset为开发高效强化学习训练框架提供了直接可用的数据资源。其预处理的格式兼容主流训练管道，显著降低了实验复现与算法验证的技术门槛。该数据集尤其适用于优化数学推理任务的训练流程，帮助工程团队快速构建和测试基于GRPO的智能体系统，提升模型在复杂问题求解中的稳定性和性能。

衍生相关工作

围绕该数据集衍生的经典工作主要包括对训练线性假设的深入验证与扩展研究。相关研究利用其结构探索了不同奖励函数设计对训练轨迹的影响，并进一步开发了动态步骤选择算法。这些工作不仅深化了对强化学习训练机制的理论理解，也为后续自适应训练策略的设计提供了实证基础，促进了高效训练方法在更广泛任务中的应用。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集