VisualPRM400K

Name: VisualPRM400K
Creator: 复旦大学, 上海人工智能实验室, 上海交通大学, 清华大学, 南京大学, 香港中文大学, 商汤科技
Published: 2025-03-13 20:03:37
License: 暂无描述

arXiv2025-03-13 更新2025-03-18 收录

下载链接：

http://arxiv.org/abs/2503.10291v1

下载链接

链接失效反馈

官方服务：

资源简介：

VisualPRM400K是一个包含大约40万个多模态过程监督数据的数据集，每个样本包括一个图像、一个问题、一个分步解答以及每一步的正确性注释。该数据集由复旦大学、上海人工智能实验室等机构构建，旨在为多模态过程奖励模型提供训练数据。数据集中的图像和问题来自MMPR v1.1，而分步解答则是通过InternVL2.5系列模型采样得到。通过自动数据管道对每个步骤的正确性进行注释，用于训练VisualPRM模型，该模型能够预测每一步的正确性。

VisualPRM400K is a dataset consisting of approximately 400,000 multimodal process supervision samples. Each sample comprises an image, a question, a step-by-step solution, and correctness annotations for each individual step. Developed by institutions including Fudan University and the Shanghai AI Laboratory, this dataset aims to provide training data for multimodal process reward models. The images and questions within the dataset are sourced from MMPR v1.1, while the step-by-step solutions were sampled using the InternVL2.5 series of models. Correctness annotations for each step were generated via an automated data pipeline, and the dataset is employed to train the VisualPRM model, which can predict the correctness of each step.

提供机构：

复旦大学, 上海人工智能实验室, 上海交通大学, 清华大学, 南京大学, 香港中文大学, 商汤科技

创建时间：

2025-03-13

搜集汇总

数据集介绍

构建方式

VisualPRM400K数据集的构建采用了自动化的数据管道，通过从MMPR v1.1中收集图像和问题，并使用InternVL2.5系列模型生成逐步解决方案。每个样本包含图像、问题、逐步解决方案以及每个步骤的正确性注释。正确性注释通过蒙特卡洛采样生成，模型从某个步骤开始生成多个延续，并计算该步骤的预期准确性作为其延续的平均准确性。数据集最终包含约40万个样本和200万个步骤，每个样本平均包含5.6个步骤，约10%的步骤为错误步骤。

特点

VisualPRM400K数据集的特点在于其多模态性质，结合了图像、问题和逐步解决方案，并通过自动化的方式生成了每个步骤的正确性注释。数据集中的每个步骤都经过蒙特卡洛采样验证，确保了数据的多样性和准确性。此外，数据集的构建方式使得其能够有效支持多模态过程奖励模型的训练，特别是在检测多模态推理任务中的错误步骤方面表现出色。

使用方法

VisualPRM400K数据集主要用于训练多模态过程奖励模型（PRM），特别是在Best-of-N（BoN）评估策略中作为批评模型使用。在训练过程中，数据被格式化为多轮对话，模型需要在每一轮中预测给定步骤的正确性。通过这种方式，模型能够逐步评估推理过程中的每个步骤，从而提高多模态大语言模型（MLLM）的推理能力。此外，该数据集还可用于评估多模态批评模型在检测推理任务中错误步骤的能力。

背景与挑战

背景概述

VisualPRM400K数据集由上海人工智能实验室、复旦大学、清华大学等机构的研究团队于2025年提出，旨在提升多模态大语言模型（MLLMs）的推理能力。该数据集包含约40万条多模态过程监督数据，每条数据包括图像、问题、逐步解决方案以及每一步的正确性标注。VisualPRM400K的构建基于自动化数据管道，通过蒙特卡洛采样生成过程正确性标注，并结合人类专家标注的VisualProcessBench基准，用于评估多模态推理任务中的错误检测能力。该数据集的发布推动了多模态推理模型的发展，特别是在过程奖励模型（PRM）的研究中，显著提升了MLLMs的推理性能。

当前挑战

VisualPRM400K数据集面临的挑战主要体现在两个方面。首先，在领域问题方面，多模态推理任务本身具有高度复杂性，模型需要在图像和文本之间建立精确的关联，并逐步推理出正确答案。现有开源MLLMs在逐步推理和错误检测方面表现不佳，难以准确评估每一步的正确性。其次，在数据集构建过程中，自动化数据管道的设计面临挑战，如何通过蒙特卡洛采样准确估计每一步的预期正确性，并确保数据的多样性和质量，是构建过程中的关键难题。此外，人类专家标注的成本和一致性也是数据集构建中的一大挑战，尤其是在处理复杂多模态推理任务时，确保标注的准确性和一致性需要大量资源和时间投入。

常用场景

经典使用场景

VisualPRM400K数据集在多模态推理任务中具有广泛的应用场景，尤其是在需要逐步监督和评估推理过程的场景中。该数据集通过提供图像、问题、逐步解决方案以及每一步的正确性标注，支持多模态大语言模型（MLLMs）在推理任务中的表现提升。经典的用例包括在Best-of-N（BoN）评估策略中，使用VisualPRM400K训练的多模态过程奖励模型（PRM）作为评判模型，帮助选择最优的推理路径，从而显著提升模型的推理能力。

实际应用

在实际应用中，VisualPRM400K数据集可以用于提升多模态大语言模型（MLLMs）在复杂推理任务中的表现。例如，在教育领域，该数据集可以用于开发智能辅导系统，帮助学生在解决数学、科学等复杂问题时提供逐步的推理指导。此外，在自动化客服系统中，该数据集可以用于提升模型在回答多模态问题时的准确性和逻辑性，从而提供更高质量的用户体验。

衍生相关工作

VisualPRM400K数据集的发布推动了多模态过程奖励模型（PRM）的研究与发展。基于该数据集，研究者们开发了VisualPRM模型，并在多个多模态推理基准测试中取得了显著的性能提升。此外，该数据集还催生了VisualProcessBench，一个用于评估PRM和MLLMs在多模态推理任务中检测错误步骤能力的基准测试。这些工作为多模态推理领域的研究提供了新的工具和方法，推动了该领域的进一步发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集