PRMBench
收藏PRMBench 数据集概述
数据集简介
PRMBench 是一个细粒度且具有挑战性的基准测试,专门用于评估过程级奖励模型(PRMs)。该数据集旨在加速过程级奖励模型的开发,并提供了一个自动化的评估框架 mr_eval 以及数据生成和注释框架 mr_annotate。
数据集特点
- 数据格式:数据集中的每个实例包含原始问题、修改后的问题、原始解决过程、修改后的解决过程、修改的步骤、错误步骤、错误原因、唯一标识符、问题分类等信息。
- 评估任务:默认评估任务为
prmtest_classified,用于评估模型在过程级奖励模型上的表现。 - 可视化工具:提供了可视化脚本
mr_visualize,用于展示评估结果。
数据集安装与使用
-
安装步骤: bash git clone https://github.com/ssmisya/PRMBench cd PRMBench conda create -n mr_eval python=3.10 conda activate mr_eval pip install -r requirements.txt pip install -e .
-
使用示例:
-
直接评估 ReasonEval-7B 模型: bash accelerate launch --config_file ${accelerate_config} -m mr_eval --model reasoneval --model_args pretrained=GAIR/ReasonEval-7B --task_name prmtest_classified --verbosity INFO --output_path ./scripts/logs/prmtest_classified/reasoneval_7b.jsonl
-
使用配置文件进行评估: bash accelerate launch --config_file ${accelerate_config} -m mr_eval --config ${config_file}
-
数据集排行榜
PRMBench 提供了一个排行榜,展示了不同模型在多个评估指标上的表现。评估指标包括总体表现、简单性、合理性、敏感性等。表现最好的模型在每个类别和任务中用 粗体 标出,次优表现用 斜体 标出。
数据集引用
bibtex @article{song2025prmbench, title={PRMBench: A Fine-grained and Challenging Benchmark for Process-Level Reward Models}, author={Mingyang Song and Zhaochen Su and Xiaoye Qu and Jiawei Zhou and Yu Cheng}, journal={arXiv preprint arXiv:2501.03124}, year={2025}, url={https://arxiv.org/pdf/2501.03124} }




