Sanity-Test-R1D-1.5B

Hugging Face2025-11-15 更新2025-11-16 收录

下载链接：

https://huggingface.co/datasets/sail/Sanity-Test-R1D-1.5B

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是用于对`DeepSeek-R1-Distill-Qwen-1.5B`模型在8k上下文长度下的强化学习算法进行健全性测试的数据集。目的是确保强化学习算法能在BF16和FP16精度下分别达到超过95%和98%的训练准确率。

创建时间：

2025-11-14

原始信息汇总

数据集概述

基本信息

数据集名称: Sanity-Test-R1D-1.5B
许可证: MIT
目标模型: DeepSeek-R1-Distill-Qwen-1.5B
上下文长度: 8k

设计目的

作为强化学习算法的完整性测试数据集
用于验证RL算法在指定模型下的性能表现
可靠的RL算法应达到：BF16精度95%以上，FP16精度98%以上

数据构建方法

从MATH数据集中筛选问题
为每个问题生成40个响应
仅保留初始准确率在20%-80%之间的问题
最终包含1,460个针对性问题

引用信息

bibtex @article{qi2025precisionrl, title={Defeating the Training-Inference Mismatch via FP16}, author={Qi, Penghui and Liu, Zichen and Zhou, Xiangxin and Pang, Tianyu and Du, Chao and Lee, Wee Sun and Lin, Min}, journal={arXiv preprint arXiv:2510.26788}, year={2025} }

搜集汇总

数据集介绍

构建方式

在强化学习算法验证领域，该数据集的构建采用了精密的筛选机制。研究团队基于MATH数据集中的数学问题，对每个问题生成40条模型响应，通过设定初始准确率在20%至80%之间的阈值，有效过滤了过于简单或不可解的问题。这一方法最终萃取出1,460道具有适度挑战性的题目，为DeepSeek-R1-Distill-Qwen-1.5B模型建立了精准的测试基准。

特点

该数据集最显著的特征在于其经过校准的难度梯度，既避免了初始模型轻易达到饱和的简单问题，也排除了超出模型当前能力的极端案例。其规模经过精心设计，在保证统计显著性的同时，使模型在有限计算资源下实现接近百分之百的准确率成为可能。这种平衡性使得数据集特别适用于检测训练与推理阶段的性能一致性。

使用方法

使用者可将该数据集作为强化学习算法的验证工具，重点关注模型在BF16和FP16两种精度下的训练准确率表现。根据设计标准，可靠的算法应分别在两种精度下达到95%和98%以上的准确率。建议结合原始论文提供的开源代码框架进行实验复现，通过对比不同数值精度下的性能差异，深入探究训练与推理不匹配问题的解决路径。

背景与挑战

背景概述

强化学习算法验证领域亟需标准化的评估基准，Sanity-Test-R1D-1.5B数据集应运而生。该数据集由SAIL实验室团队于2025年构建，核心目标是为DeepSeek-R1-Distill-Qwen-1.5B模型提供强化学习算法的有效性验证框架。研究团队通过系统筛选MATH数据集中的数学问题，保留初始准确率介于20%至80%的1460道题目，构建出兼具挑战性与可解性的测试集合。这项研究为解决训练-推理失配问题提供了重要实验基础，其方法论对提升大语言模型稳定性具有显著参考价值。

当前挑战

该数据集主要应对强化学习算法在低精度计算环境下的稳定性验证挑战。研究团队在构建过程中需精确平衡数据复杂度，既要规避模型完全无法解决的超难问题，也需排除过于简单的 trivial 案例。通过设计40轮响应展开机制，确保每个问题能充分暴露模型决策边界。数据筛选标准的确立过程涉及大量实验验证，需在保持统计显著性的同时控制计算成本，这对构建高效验证基准提出了严峻考验。

常用场景

经典使用场景

在强化学习算法验证领域，该数据集作为标准化测试基准，专门用于评估DeepSeek-R1-Distill-Qwen-1.5B模型在8k上下文长度下的训练稳定性。通过精心筛选MATH数据集中初始准确率介于20%至80%的数学问题，构建出包含1460个样本的测试集，为算法性能验证提供精确的度量标尺。

衍生相关工作

基于该数据集衍生的经典研究包括《Defeating the Training-Inference Mismatch via FP16》等重要成果，这些工作深入探讨了数值精度与模型性能的关联机制。相关研究方法已被扩展到更广泛的预训练模型测试领域，推动了标准化评估框架的发展。

数据集最近研究