five

RLVR-Math-16k

收藏
Hugging Face2026-03-22 更新2026-03-23 收录
下载链接:
https://huggingface.co/datasets/Julian2002/RLVR-Math-16k
下载链接
链接失效反馈
官方服务:
资源简介:
RLVR-Math-16k 是一个专为 RLVR(可验证奖励的强化学习)训练而设计的数学推理数据集。数据集包含来自多个数学竞赛问题的样本,如 MATH、AMC/AIME 和 Olympiad 竞赛问题。数据集分为训练集和测试集,训练集包含 16,384 个样本,测试集包含 842 个样本,总计 17,226 个样本。每个样本采用 verl-compatible 的聊天格式,包含数据来源、提示、能力、奖励模型和额外信息等字段。数据集经过预处理,包括源过滤、长度过滤、测试集去重、分层抽样和答案可解析性验证。该数据集适用于数学推理任务的 RLVR 训练,如 DAPO 和 REINFORCE++ 等算法。
创建时间:
2026-03-21
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作