RLVR-Math-16k

Hugging Face2026-03-22 更新2026-03-23 收录

下载链接：

https://huggingface.co/datasets/Julian2002/RLVR-Math-16k

下载链接

链接失效反馈

官方服务：

资源简介：

RLVR-Math-16k 是一个专为 RLVR（可验证奖励的强化学习）训练而设计的数学推理数据集。数据集包含来自多个数学竞赛问题的样本，如 MATH、AMC/AIME 和 Olympiad 竞赛问题。数据集分为训练集和测试集，训练集包含 16,384 个样本，测试集包含 842 个样本，总计 17,226 个样本。每个样本采用 verl-compatible 的聊天格式，包含数据来源、提示、能力、奖励模型和额外信息等字段。数据集经过预处理，包括源过滤、长度过滤、测试集去重、分层抽样和答案可解析性验证。该数据集适用于数学推理任务的 RLVR 训练，如 DAPO 和 REINFORCE++ 等算法。

创建时间：

2026-03-21

5,000+

优质数据集

54 个

任务类型

进入经典数据集