RLVR-Math-16k
收藏Hugging Face2026-03-22 更新2026-03-23 收录
下载链接:
https://huggingface.co/datasets/Julian2002/RLVR-Math-16k
下载链接
链接失效反馈官方服务:
资源简介:
RLVR-Math-16k 是一个专为 RLVR(可验证奖励的强化学习)训练而设计的数学推理数据集。数据集包含来自多个数学竞赛问题的样本,如 MATH、AMC/AIME 和 Olympiad 竞赛问题。数据集分为训练集和测试集,训练集包含 16,384 个样本,测试集包含 842 个样本,总计 17,226 个样本。每个样本采用 verl-compatible 的聊天格式,包含数据来源、提示、能力、奖励模型和额外信息等字段。数据集经过预处理,包括源过滤、长度过滤、测试集去重、分层抽样和答案可解析性验证。该数据集适用于数学推理任务的 RLVR 训练,如 DAPO 和 REINFORCE++ 等算法。
创建时间:
2026-03-21



