ProJudgeBench, ProJudge-173k

github2025-03-11 更新2025-03-12 收录

下载链接：

https://github.com/jiaxin-ai/ProJudge

下载链接

链接失效反馈

官方服务：

资源简介：

ProJudgeBench是第一个专门设计用于评估基于多模态大语言模型的过程判断能力的综合基准测试。它包含2,400个测试案例和50,118个步骤级标签，涵盖四个科学学科，具有不同的难度级别和多模态内容。每个步骤都由人类专家精心注释，以评估判断者检测、分类和诊断错误的能力。ProJudge-173k是一个大规模指令调优数据集，旨在通过动态双阶段微调策略增强开源模型的过程评估能力。

ProJudgeBench is the first comprehensive benchmark specifically designed to evaluate the procedural judgment capabilities of multimodal large language models. It comprises 2,400 test cases and 50,118 step-level labels, spanning four scientific disciplines with varying difficulty levels and multimodal content. Each step is meticulously annotated by human experts to assess the ability of judges to detect, classify and diagnose errors. ProJudge-173k is a large-scale instruction tuning dataset developed to enhance the procedural evaluation capabilities of open-source models via a dynamic two-stage fine-tuning strategy.

创建时间：

2025-03-09

原始信息汇总

ProJudge数据集概述

数据集简介

ProJudge是一个为多模态大型语言模型（MLLM）设计的多模态、多学科、多难度级别的基准测试和指令微调数据集，用于评估MLLM-based过程评判员的性能。

关键特征

多模态、多学科、多难度：包含2400个测试案例和50,118个步骤级别的标签，涵盖数学、物理、化学和生物学等四个学科，具有不同的难度级别和模态内容。
细粒度错误分析：定义了七种错误类型，涵盖模型在长推理链中可能犯的常见错误。每个步骤都由人类专家精心标注正确性、错误类型和解释，以系统地评估过程评判员检测、分类和诊断错误的性能。
真实和多样化的错误模式：收集了10种不同大小、架构和设计目标的MLLM的解决方案，反映了现实世界中推理行为和错误模式的广泛谱系。

许可

代码许可：Apache 2.0
数据许可：Creative Commons Attribution-NonCommercial 4.0 International

使用和许可通知：数据和代码仅用于研究目的。许可：知识共享署名-非商业性使用 4.0 国际许可。需遵守OpenAI的政策：OpenAI使用条款

引用

@article{ai2025projudge, title={ProJudge: A Multi-Modal Multi-Discipline Benchmark and Instruction-Tuning Dataset for MLLM-based Process Judges}, author={Jiaxin Ai and Pengfei Zhou and Zhaopan Xu and Ming Li and Fanrui Zhang and Zizhen Li and Jianwen Sun and Yukang Feng and Baojin Huang and Zhongyuan Wang and Kaipeng Zhang}, journal={arXiv preprint arXiv:2503.06553}, year={2025} }

搜集汇总

数据集介绍

构建方式

ProJudgeBench数据集的构建，以多模态大规模语言模型在解决科学问题时常出现错误为背景，旨在评估模型推理过程的准确性。该数据集包含了2400个测试案例和50118个步骤级别的标签，覆盖数学、物理、化学和生物学四个学科领域，难度层次不等，内容形式多样。数据集中的每个步骤均由人类专家精心标注了正确性、错误类型及解释，以实现对过程判断能力的系统评估。

特点

该数据集的特点在于其多模态、多学科、多难度级别的独特设计。它不仅提供了细粒度的错误分析，定义了七种常见的错误类型，而且还包含了来自不同规模、架构和设计目标的10种MLLM模型产生的解决方案，反映了现实世界中多样的推理行为和错误模式。这些特性使得ProJudgeBench成为一个评估MLLM模型过程判断能力的全面基准。

使用方法

使用ProJudgeBench数据集，研究者可以加载测试案例和对应的步骤级别标签，对MLLM模型进行训练和评估。数据集提供的详细标注允许研究者深入分析模型在科学问题解决过程中的推理错误，进而提升模型的过程评估能力。此外，ProJudge-173k数据集的引入，以及动态双阶段微调策略的实施，进一步助力开源模型过程评价能力的增强。

背景与挑战

背景概述

ProJudgeBench与ProJudge-173k数据集的创建，源于对多模态大型语言模型（MLLMs）在解决科学问题过程中出现的错误进行评估的需求。此数据集由Jiaxin Ai，Pengfei Zhou等研究人员于2025年提出，旨在评估MLLMs自动过程判断的可靠性。该数据集涵盖了数学、物理、化学和生物四个学科，包含了2400个测试案例和50118个步骤级别的标签，难度多样，内容丰富，为相关领域的研究提供了重要的基础数据资源。

当前挑战

该数据集在构建过程中所面临的挑战主要包括：1) 如何准确构建涵盖多个学科和难度级别的测试案例，确保数据集的全面性和实用性；2) 如何定义并细化错误类型，以便于对模型的过程判断能力进行细致的评价；3) 如何收集和整合来自不同规模、架构和设计目标的MLLMs的解决方案，以反映现实世界中的推理行为和错误模式。此外，数据集在解决科学问题领域中的挑战包括：如何提高MLLMs在长推理链中的错误检测和诊断能力，以及如何通过指令调整和双相微调策略增强模型的过程评估能力。

常用场景

经典使用场景

ProJudgeBench与ProJudge-173k数据集的问世，为评估多模态大型语言模型（MLLMs）在科学问题解决过程中的有效性，提供了一个全新的视角。该数据集通过包含四个学科领域的2400个测试案例和50118个步骤级别的标签，成为了评估MLLMs推理过程正确性的重要基准。每个步骤均由人类专家进行精确标注，包括正确性、错误类型和解释，这使得ProJudgeBench成为研究自动化过程评判的典型用例。

衍生相关工作

基于ProJudgeBench和ProJudge-173k数据集的研究，已经衍生出了多种相关的经典工作。例如，动态双阶段微调策略的提出，显著增强了开源模型在过程评估方面的能力，为未来的可靠多模态过程评估研究奠定了基础。

数据集最近研究

ProJudgeBench, ProJudge-173k

ProJudge数据集概述

数据集简介

关键特征

相关资源

许可

引用