ProJudgeBench 和 ProJudge-173k

Name: ProJudgeBench 和 ProJudge-173k
Creator: 武汉大学, 上海创新学院, 上海人工智能实验室, 中国科学技术大学, 南开大学, 华中农业大学
Published: 2025-03-09 18:55:51
License: 暂无描述

arXiv2025-03-09 更新2025-03-12 收录

下载链接：

https://github.com/jiaxin-ai/ProJudge

下载链接

链接失效反馈

官方服务：

资源简介：

ProJudgeBench是一个专门为评估多模态大型语言模型（MLLM）作为过程评判员的能力而设计的全面基准。该数据集包含2400个测试案例和50118个步骤级别的标签，涵盖数学、物理、化学和生物学四个学科，难度多样，内容多模态。每个步骤都由人类专家精心标注正确性、错误类型和解释，使得可以对评判员检测、分类和诊断错误的能力进行系统评估。ProJudge-173k是一个大规模的指令微调数据集，旨在对步骤-by-step推理进行细致评估。

ProJudgeBench is a comprehensive benchmark specifically designed to evaluate the capability of multimodal large language models (MLLMs) as process judges. This dataset contains 2400 test cases and 50118 step-level labels, covering four disciplines including mathematics, physics, chemistry and biology, with diverse difficulty levels and multimodal content. Each step is meticulously annotated by human experts with correctness, error types and corresponding explanations, enabling systematic assessment of the judge's ability to detect, classify and diagnose errors. ProJudge-173k is a large-scale instruction tuning dataset aimed at detailed evaluation of step-by-step reasoning.

提供机构：

武汉大学, 上海创新学院, 上海人工智能实验室, 中国科学技术大学, 南开大学, 华中农业大学

创建时间：

2025-03-09

搜集汇总

数据集介绍

构建方式

ProJudgeBench数据集的构建方法是通过收集来自不同模型生成的解决方案，并由人类专家对这些解决方案的每一步进行仔细的标注，标注内容包括正确性、错误类型和解释。数据集涵盖了数学、物理、化学和生物学四个科学领域，包含2400个测试案例和50,118个步骤级别的标签，涵盖了不同难度级别和多媒体内容。为了提高开源模型的评估能力，研究人员还提出了ProJudge-173k数据集，这是一个大规模的指令调整数据集，通过两个互补的途径构建，确保数据的多样性和现实世界的相关性。

特点

ProJudgeBench数据集的特点是它是一个多模态、多学科、多难度问题的基准数据集，每个步骤都由人类专家进行细致的标注，包括正确性、错误类型和解释，从而能够对评估者的能力进行系统性的评价。此外，数据集还包含了来自不同模型的真实和多样化的错误模式，这有助于提高评估者在现实世界场景中的评估能力。ProJudge-173k数据集则是一个大规模的指令调整数据集，旨在对逐步推理进行细粒度评估。

使用方法

使用ProJudgeBench数据集的方法是，首先收集不同模型生成的解决方案，并对每个步骤进行标注，包括正确性、错误类型和解释。然后，使用这个数据集来评估模型的评估能力，特别是检测、分类和诊断错误的能力。对于ProJudge-173k数据集，可以使用它来调整开源模型，以提高其逐步推理的评估能力。此外，研究人员还提出了一种动态双相微调策略，鼓励模型在评估解决方案之前明确地进行问题解决步骤的推理，从而模仿人类专家的行为。

背景与挑战

背景概述

在多模态大语言模型（MLLMs）解决科学问题的过程中，模型可能会出现错误，因此评估其推理过程的合理性对于确保可靠性和揭示模型的细粒度弱点至关重要。由于人工评估成本高昂且耗时，因此将MLLMs作为自动过程评估者进行提示已成为一种常见做法。然而，这些基于模型的评估者的可靠性仍然不确定。为了解决这个问题，我们引入了ProJudgeBench，这是第一个专门用于评估MLLMs作为过程评估者能力的综合基准。ProJudgeBench包含2,400个测试案例和50,118个步骤级别的标签，涵盖了四个科学学科，具有不同的难度级别和多模态内容。在ProJudgeBench中，每个步骤都由人类专家仔细地标注其正确性、错误类型和解释，从而系统地评估评估者的能力以检测、分类和诊断错误。对ProJudgeBench的评估揭示开源和专有模型之间存在显著的性能差距。为了弥合这一差距，我们进一步提出了ProJudge-173k，这是一个大规模的指令调整数据集，以及一个动态双阶段微调策略，该策略鼓励模型在评估解决方案之前明确地推理问题解决步骤。这两项贡献显着增强了开源模型的评估能力。所有资源都将发布以促进未来可靠的多模态过程评估研究。

当前挑战

ProJudgeBench数据集旨在解决当前多模态大语言模型在解决科学问题时可能出现的推理错误问题。该数据集的构建过程中遇到的挑战包括：（1）数据集的多样性：需要涵盖多个科学学科，并具有不同的难度级别和多模态内容，以真实反映现实世界推理任务的多样性；（2）细粒度错误分析：需要对每个步骤进行细致的标注，包括正确性、错误类型和解释，以系统地评估评估者的能力；（3）真实和多样化的错误模式：收集来自不同大小、架构和设计目标的MLLMs的解决方案，以反映广泛的现实推理行为和错误模式。此外，开源和专有模型在过程评估能力方面的差距也是一个挑战，需要进一步研究和改进。

常用场景

经典使用场景

ProJudgeBench 和 ProJudge-173k 数据集被广泛用于评估和提升多模态大型语言模型 (MLLM) 作为过程评判员的能力。这些数据集提供了涵盖数学、物理、化学和生物学等科学领域的2400个测试案例和50118个步骤级标签，涉及不同难度级别和多模态内容。数据集中的每个步骤都由人类专家进行了仔细的标注，包括正确性、错误类型和解释，以便对评判员的检测、分类和诊断错误的能力进行系统性评估。

实际应用

ProJudgeBench 和 ProJudge-173k 数据集在实际应用中具有广泛的应用场景。这些数据集可以用于教育和培训领域，帮助教师和学生评估和改进科学问题的解决过程。此外，这些数据集还可以用于软件开发和人工智能领域，用于评估和优化多模态大型语言模型的推理能力，从而提高人工智能系统的可靠性和性能。

衍生相关工作

ProJudgeBench 和 ProJudge-173k 数据集的提出和实施衍生了许多相关的经典工作。这些数据集为评估和提升多模态大型语言模型的过程评判能力提供了重要的基准，并促进了相关领域的研究和发展。此外，这些数据集的提出和应用还推动了动态双阶段微调策略的研究和发展，为开源模型的改进提供了重要的工具和方法。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集