RLPR-Evaluation

Name: RLPR-Evaluation
Creator: OpenBMB
Published: 2025-06-22 21:00:15
License: 暂无描述

Hugging Face2025-06-22 更新2025-06-23 收录

下载链接：

https://huggingface.co/datasets/openbmb/RLPR-Evaluation

下载链接

链接失效反馈

官方服务：

资源简介：

RLPR-Evaluation是一个用于评估推理能力的多方面基准测试套件，包含数学推理和通用领域推理两个类别的七个基准测试。这些基准测试覆盖了从数学问题到科学问题等多个领域，旨在全面评估模型在不同难度级别和不同领域的推理能力。

提供机构：

OpenBMB

创建时间：

2025-06-22

原始信息汇总

RLPR-Evaluation 数据集概述

基本信息

许可证: Apache-2.0
任务类别: 问答、文本生成
语言: 英语
数据集名称: RLPR-Evaluation
规模分类: 各组件基准不同

数据集摘要

RLPR-Evaluation 包含以下七个基准测试，用于评估 RLPR 框架：

数学推理基准

MATH-500: 来自 Cobbe 等人 (2021) 的数学问题集
Minerva: 来自 Lewkowycz 等人 (2022) 的数学推理基准
AIME24: 未注明来源的数学推理基准

通用领域推理基准

MMLU-Pro: 来自 Wang 等人 (2024) 的多任务语言理解基准，包含推理密集型问题，随机采样 1000 个提示
GPQA: 来自 Rein 等人 (2023) 的跨学科研究生水平问题集，使用最高质量的 GPQA-diamond 子集
TheoremQA: 来自 Chen 等人 (2023) 的评估应用定理解决复杂科学问题的能力，使用 800 个高质量问题
WebInstruct (验证集): 来自 Ma 等人 (2025) 的 WebInstruct 验证集，均匀采样 1k 提示并应用 10-gram 去重，最终得到 638 个独特问题

使用方法

python from datasets import load_dataset data = load_dataset("openbmb/RLPR-Benchmarks")

数据字段

序号	字段名	描述
0	`data_source`	特定基准或分割的标识符
1	`prompt`	输入问题或问题陈述，可能包含上下文或指令
2	`ability`	任务的领域或类别
3	`reward_model`	包含 `ground_truth` 答案的字典，用于评分
4	`extra_info`	基准特定的元数据，如 `answer_type`、`category`、`difficulty`、`id` 等
5	`uid`	数据集中项目的唯一标识符

引用

如果使用 RLPR 框架或参考本评估套件，请引用我们的论文以及使用的任何组件基准的原始论文：

bibtex @article{yu2025rlpr, title={RLPR: Extrapolating RLVR to General Domains without Verifiers}, author={Yu, Tianyu and Ji, Bo and Wang, Shouli and Yao, Shu and Wang, Zefan and Cui, Ganqu and Yuan, Lifan and Ding, Ning and Yao, Yuan and Liu, Zhiyuan and Sun, Maosong and Chua, Tat-Seng}, journal={arXiv preprint arXiv:2506.xxxxx}, year={2025} }

搜集汇总

数据集介绍

构建方式

RLPR-Evaluation数据集通过整合七个权威评测基准构建而成，涵盖数学推理与通用领域推理两大方向。数学推理部分精选MATH-500、Minerva和AIME24等经典数学问题集，通用领域则采用MMLU-Pro的千题均衡采样、GPQA钻石级子集、TheoremQA的800道科学应用题以及WebInstruct验证集的638道去重指令。各基准均经过严格的样本筛选和质量控制，确保评估体系的全面性和可靠性。

特点

该数据集以多维度评估为核心特征，既包含数学定理推导等高阶认知任务，也覆盖跨学科综合推理场景。MMLU-Pro和GPQA侧重语言理解与学术深度，TheoremQA强调科学定理应用能力，WebInstruct则提供中等规模模型的适配性测试。所有样本均标注数据来源、能力域分类及包含标准答案的奖励模型，部分样本附有难度分级和题目类别等元数据，支持细粒度性能分析。

使用方法

通过HuggingFace数据集库可便捷加载该评估套件，调用`load_dataset('openbmb/RLPR-Benchmarks')`即可获取结构化数据。每个样本包含prompt输入文本、能力分类标签、标准答案字典及基准特有元信息，研究者可通过data_source字段筛选特定评测集，结合reward_model中的ground_truth实现自动化评分。该设计兼容各类语言模型的zero-shot或few-shot评估，支持跨领域推理能力的系统性比对。

背景与挑战

背景概述

RLPR-Evaluation数据集由OpenBMB研究团队于2025年构建，旨在为强化学习与预训练模型融合研究提供全面的评估基准。该数据集整合了七个跨领域的推理能力测评基准，涵盖数学推理（MATH-500、Minerva、AIME24）与通用领域推理（MMLU-Pro、GPQA、TheoremQA、WebInstruct），通过多维度任务设计评估模型在复杂场景下的认知能力。其创新性在于首次将强化学习范式与验证器无关的评估方法相结合，为人工智能领域的可扩展推理研究建立了标准化测评体系。

当前挑战

该数据集面临的核心挑战体现在两个维度：在领域问题层面，需解决跨学科知识整合的评估难题，如高等数学定理推导与多模态科学问题求解的兼容性评估；在构建过程中，需平衡基准的多样性与评估效率，例如对GPQA-diamond子集的质量筛选，以及WebInstruct数据采用10-gram去重算法处理的样本代表性问题。此外，各子基准的评分标准异构性（如数学证明题与开放式问答的评估差异）也增加了统一评估框架设计的复杂性。

常用场景

经典使用场景

在人工智能领域，RLPR-Evaluation数据集被广泛用于评估强化学习模型在复杂推理任务中的表现。该数据集整合了数学推理和通用领域推理两大类别，涵盖从基础数学问题到跨学科研究生水平问题的多样化任务。研究人员通过该数据集能够系统性地测试模型在不同难度和领域的推理能力，特别是在无监督或弱监督条件下的泛化性能。

衍生相关工作

基于RLPR-Evaluation的评估框架已催生多项重要研究，包括OpenBMB团队提出的RLPR无验证器强化学习方法。Minerva和TheoremQA等子集的创新性使用方式启发了多模态推理模型的联合训练策略，而MMLU-Pro的采样方法被后续研究广泛借鉴用于构建高效评估流程。这些衍生工作共同推动了通用推理模型的技术演进。

数据集最近研究