RLPR-Benchmarks

Hugging Face2025-06-22 更新2025-06-23 收录

下载链接：

https://huggingface.co/datasets/RLAIF-V/RLPR-Benchmarks

下载链接

链接失效反馈

官方服务：

资源简介：

RLPR评估基准是一个多方面的测试套件，用于对各种领域和难度级别的推理能力进行彻底评估。它包括数学推理基准和一般领域推理基准，如MATH-500、Minerva、AIME24、MMLU-Pro、GPQA、TheoremQA和WebInstruct验证集。这些基准测试涵盖了从数学问题到科学问题等领域，旨在评估模型在解决需要推理的问题时的表现。

创建时间：

2025-06-16

原始信息汇总

RLPR-Test 数据集概述

基本信息

许可证: CC-BY-NC-4.0
任务类别: 问答、文本生成
语言: 英语
数据集名称: RLPR Evaluation Benchmarks
规模分类: 各组件基准不同

数据集摘要

RLPR-Test 包含以下七个基准测试，用于评估 RLPR：

数学推理基准

MATH-500: 来自 Cobbe 等人 (2021)
Minerva: 来自 Lewkowycz 等人 (2022)
AIME24

通用领域推理基准

MMLU-Pro: 来自 Wang 等人 (2024)，包含推理密集型问题，随机采样 1000 个提示
GPQA: 来自 Rein 等人 (2023)，使用最高质量的 GPQA-diamond 子集
TheoremQA: 来自 Chen 等人 (2023)，评估应用定理解决复杂科学问题的能力，使用 800 个高质量问题
WebInstruct (验证集): 来自 Ma 等人 (2025)，均匀采样 1k 提示并应用 10-gram 去重，得到 638 个独特问题

使用方法

python from datasets import load_dataset data = load_dataset("openbmb/RLPR-Benchmarks")

数据字段

键	描述
`data_source`	特定基准或拆分的标识符
`prompt`	输入问题或问题陈述
`ability`	任务的领域或类别
`reward_model`	包含 `ground_truth` 答案的字典
`extra_info`	基准特定元数据
`uid`	数据集中项目的唯一标识符

引用

bibtex @article{yu2025rlpr, title={RLPR: Extrapolating RLVR to General Domain without Verifiers}, author={Yu, Tianyu and Ji, Bo and Wang, Shouli and Yao, Shu and Wang, Zefan and Cui, Ganqu and Yuan, Lifan and Ding, Ning and Yao, Yuan and Liu, Zhiyuan and Sun, Maosong and Chua, Tat-Seng}, journal={arXiv preprint arXiv:2506.xxxxx}, year={2025} }

搜集汇总

数据集介绍

构建方式

RLPR-Benchmarks数据集通过整合多个权威推理评估基准构建而成，涵盖数学推理与通用领域推理两大类别。数学推理部分精选了MATH-500、Minerva和AIME24等专业数学问题集，通用领域则融合了MMLU-Pro的多任务理解题、GPQA的跨学科研究生级问题、TheoremQA的科学定理应用题以及WebInstruct的验证集样本。构建过程中采用分层抽样（如MMLU-Pro抽取1000题）、质量筛选（如仅保留GPQA-diamond子集）和去重处理（WebInstruct应用10-gram去重），确保评估的全面性与数据纯净度。

特点

该数据集以多维度评估为核心特征，包含7个差异化的子基准，覆盖从基础数学到跨学科高阶推理的复杂能力谱系。其独特价值体现在三个方面：难度梯度上包含AIME24竞赛题与GPQA钻石级问题等挑战性内容；领域多样性上同时涉及STEM学科与人文社科；数据质量上通过人工校验（如TheoremQA剔除53个多模态指令）和算法过滤保证可靠性。每个样本均附带元数据标记，包括能力分类、难度等级和基准来源标识，支持细粒度性能分析。

使用方法

使用该数据集需通过Hugging Face的datasets库加载，调用`load_dataset("openbmb/RLPR-Benchmarks")`即可获取结构化数据。每个样本包含prompt输入、ground_truth答案及丰富的元数据字段（如ability分类、extra_info中的难度标记），研究者可根据data_source字段选择特定子基准进行评估。典型应用场景包括：基于reward_model字段进行自动评分，利用uid字段追踪模型在特定问题上的表现，或通过ability字段实现分领域能力诊断。需注意遵守各子基准的原始论文引用要求，并遵循CC-BY-NC-4.0许可协议。

背景与挑战

背景概述

RLPR-Benchmarks数据集由OpenBMB团队于2025年推出，旨在为强化学习在自然语言处理领域的应用提供全面评估框架。该数据集整合了七个权威基准测试，涵盖数学推理（MATH-500、Minerva、AIME24）和通用领域推理（MMLU-Pro、GPQA、TheoremQA、WebInstruct）两大方向，涉及多任务语言理解、跨学科问题求解等复杂认知任务。其核心研究聚焦于突破传统强化学习验证方法的局限性，通过构建多维度的评估体系，推动语言模型在无监督环境下的推理能力发展。该数据集的发布为衡量模型在开放域任务中的泛化性能设立了新标准，对人工智能领域的可解释性研究具有重要参考价值。

当前挑战

该数据集面临双重技术挑战：在领域问题层面，需解决数学符号处理与开放域知识融合的兼容性问题，例如Minerva基准要求模型同步处理LaTeX公式与自然语言语义；GPQA-diamond子集则涉及跨学科专业知识的深度推理。在构建过程中，团队需平衡数据规模与质量，如对TheoremQA进行严格的多模态指令过滤，并在WebInstruct验证集中实施10-gram去重算法以确保样本独立性。不同基准的评分标准异构性（如MATH-500的逐步评分与MMLU-Pro的离散选项）进一步增加了统一评估框架的设计难度。

常用场景

经典使用场景

在人工智能领域，RLPR-Benchmarks数据集被广泛应用于评估强化学习与推理模型的综合性能。该数据集通过整合数学推理（如MATH-500、Minerva）和通用领域推理（如MMLU-Pro、GPQA）等多个维度的基准测试，为研究者提供了一个全面衡量模型在复杂问题解决、定理应用及跨学科知识整合能力的标准化平台。其多层次的难度设计和严谨的抽样方法，使得该数据集成为验证模型泛化性和鲁棒性的黄金标准。

解决学术问题

RLPR-Benchmarks有效解决了当前AI研究中模型评估维度单一、领域覆盖不足的痛点。通过融合数学证明、科学定理应用及研究生水平的多学科问题，该数据集为量化模型在符号推理、逻辑演绎和知识迁移等核心认知能力上提供了细粒度指标。其设计的GPQA-diamond子集和TheoremQA高难度问题，尤其填补了现有基准在评估高阶推理任务上的空白，推动了从狭义任务性能向广义智能水平的学术范式转变。

衍生相关工作

围绕RLPR-Benchmarks已催生系列创新研究，例如基于其MMLU-Pro子集开发的层级注意力机制（Wang et al., 2024），以及受TheoremQA启发的神经符号混合推理框架（Chen et al., 2023）。这些工作不仅扩展了原始数据集的评估维度，更衍生出如跨模态定理证明、动态课程学习等新方向。GitHub开源社区中基于该基准的模型微调方案和对抗性测试工具包，持续推动着推理技术生态的演进。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集