five

PRMBench

收藏
github2025-01-07 更新2025-01-08 收录
下载链接:
https://github.com/ssmisya/PRMBench
下载链接
链接失效反馈
官方服务:
资源简介:
PRMBench是一个细粒度和具有挑战性的基准测试,用于评估过程级奖励模型(PRMs)。它包括一个自动评估框架`mr_eval`,以及一个数据生成和注释框架`mr_annotate`。

PRMBench is a fine-grained and challenging benchmark for evaluating process-level reward models (PRMs). It includes an automatic evaluation framework `mr_eval`, as well as a data generation and annotation framework `mr_annotate`.
创建时间:
2025-01-07
原始信息汇总

PRMBench 数据集概述

数据集简介

PRMBench 是一个细粒度且具有挑战性的基准测试,专门用于评估过程级奖励模型(PRMs)。该数据集旨在加速过程级奖励模型的开发,并提供了一个自动化的评估框架 mr_eval 以及数据生成和注释框架 mr_annotate

数据集特点

  • 数据格式:数据集中的每个实例包含原始问题、修改后的问题、原始解决过程、修改后的解决过程、修改的步骤、错误步骤、错误原因、唯一标识符、问题分类等信息。
  • 评估任务:默认评估任务为 prmtest_classified,用于评估模型在过程级奖励模型上的表现。
  • 可视化工具:提供了可视化脚本 mr_visualize,用于展示评估结果。

数据集安装与使用

  • 安装步骤: bash git clone https://github.com/ssmisya/PRMBench cd PRMBench conda create -n mr_eval python=3.10 conda activate mr_eval pip install -r requirements.txt pip install -e .

  • 使用示例

    • 直接评估 ReasonEval-7B 模型: bash accelerate launch --config_file ${accelerate_config} -m mr_eval --model reasoneval --model_args pretrained=GAIR/ReasonEval-7B --task_name prmtest_classified --verbosity INFO --output_path ./scripts/logs/prmtest_classified/reasoneval_7b.jsonl

    • 使用配置文件进行评估: bash accelerate launch --config_file ${accelerate_config} -m mr_eval --config ${config_file}

数据集排行榜

PRMBench 提供了一个排行榜,展示了不同模型在多个评估指标上的表现。评估指标包括总体表现、简单性、合理性、敏感性等。表现最好的模型在每个类别和任务中用 粗体 标出,次优表现用 斜体 标出。

数据集引用

bibtex @article{song2025prmbench, title={PRMBench: A Fine-grained and Challenging Benchmark for Process-Level Reward Models}, author={Mingyang Song and Zhaochen Su and Xiaoye Qu and Jiawei Zhou and Yu Cheng}, journal={arXiv preprint arXiv:2501.03124}, year={2025}, url={https://arxiv.org/pdf/2501.03124} }

搜集汇总
数据集介绍
main_image_url
构建方式
PRMBench数据集的构建过程经过精心设计,旨在为过程级奖励模型(PRMs)提供一个细粒度且具有挑战性的基准。数据集的构建通过自动化工具`mr_annotate`进行数据生成与标注,确保数据的多样性和复杂性。数据来源包括数学问题及其解答过程,通过修改原始问题和解答步骤,引入错误和逻辑漏洞,以评估模型在复杂推理任务中的表现。数据集的构建还结合了人工审核,确保每个数据实例的质量和准确性。
特点
PRMBench数据集的特点在于其细粒度和挑战性。数据集涵盖了多种数学问题类型,每个问题都包含原始问题和修改后的问题,以及对应的解答步骤。通过引入错误步骤和逻辑漏洞,数据集能够有效评估模型在推理过程中的鲁棒性和准确性。此外,数据集还提供了详细的错误分类和原因分析,帮助研究人员深入理解模型的推理能力。数据集的多样性和复杂性使其成为评估过程级奖励模型的理想选择。
使用方法
PRMBench数据集的使用方法主要通过`mr_eval`工具进行自动化评估。用户可以通过命令行或配置文件指定模型和任务,运行评估脚本以获取模型在数据集上的表现。数据集支持自定义模型和任务的评估,用户可以根据需求调整评估参数。评估结果包括模型在各个任务上的得分,帮助研究人员全面了解模型的推理能力。此外,数据集还提供了可视化工具,便于用户直观分析评估结果。
背景与挑战
背景概述
PRMBench是一个专注于过程级奖励模型(PRMs)的细粒度基准测试数据集,旨在推动该领域的研究与发展。该数据集由Mingyang Song等人于2025年提出,并发表在arXiv预印本平台上。PRMBench的构建基于对复杂推理过程的深入分析,尤其关注模型在解决数学问题时的推理步骤和错误检测能力。通过提供详细的原始问题和修改后的问题及其对应的推理过程,PRMBench为研究人员提供了一个评估和优化PRMs性能的标准化平台。该数据集的发布不仅填补了过程级奖励模型评估领域的空白,还为相关领域的模型优化和错误检测研究提供了重要参考。
当前挑战
PRMBench面临的挑战主要体现在两个方面。首先,过程级奖励模型的评估本身具有高度复杂性,尤其是在处理多步骤推理任务时,模型需要准确识别和纠正推理过程中的错误,这对模型的逻辑推理能力和错误检测能力提出了极高要求。其次,数据集的构建过程中,如何确保数据的多样性和代表性是一个关键挑战。PRMBench通过引入修改后的推理步骤和错误步骤,模拟了真实场景中的推理错误,但如何平衡数据的复杂性和模型的泛化能力仍需进一步探索。此外,数据标注的准确性和一致性也是构建过程中需要克服的难点,以确保评估结果的可靠性和公平性。
常用场景
经典使用场景
PRMBench作为一个细粒度和具有挑战性的基准数据集,主要用于评估和优化过程级奖励模型(PRMs)。该数据集通过提供详细的步骤级错误分析和修正过程,帮助研究人员深入理解模型在处理复杂推理任务时的表现。经典使用场景包括对模型在数学推理、逻辑推理等任务中的表现进行细粒度评估,尤其是在模型生成过程中出现的错误类型和频率的分析。
解决学术问题
PRMBench解决了过程级奖励模型在复杂推理任务中的评估难题。传统评估方法往往只关注最终结果的正确性,而忽略了推理过程中的错误类型和原因。PRMBench通过提供详细的步骤级错误分类和修正过程,帮助研究人员识别模型在推理过程中的薄弱环节,从而推动模型在推理能力上的改进。该数据集的出现填补了过程级评估的空白,为模型优化提供了新的研究方向。
衍生相关工作
PRMBench的发布推动了多个相关领域的研究进展。基于该数据集,研究人员开发了多种过程级奖励模型,如ReasonEval和Llemma系列模型,这些模型在数学推理和逻辑推理任务中表现出色。此外,PRMBench还激发了更多关于过程级评估的研究,例如如何通过细粒度错误分析提升模型的推理能力,以及如何将过程级奖励模型应用于更广泛的领域。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作