Multimodal RewardBench 2 (MMRB2)

github2025-12-19 更新2025-12-20 收录

下载链接：

https://github.com/facebookresearch/MMRB2

下载链接

链接失效反馈

官方服务：

资源简介：

MMRB2是第一个全面的多模态理解和（交错）生成的奖励模型基准。它涵盖四个任务：文本到图像、图像编辑、交错生成和多模态推理（“思考图像”），每个任务提供来自23个模型和21个源任务的1000个专家标注的偏好对。MMRB2设计具有：（1）实用但具有挑战性的提示；（2）来自最先进模型和代理的响应；（3）通过集成过滤策略策划的具有强人类专家共识的偏好对。

MMRB2 is the first comprehensive reward model benchmark for multimodal understanding and (interleaved) generation. It covers four tasks: text-to-image, image editing, interleaved generation, and multimodal reasoning ("Thinking Image"). For each task, 1,000 expert-annotated preference pairs from 23 models and 21 source tasks are provided. MMRB2 is designed with three core features: (1) practical yet challenging prompts; (2) responses from state-of-the-art models and agents; (3) curated preference pairs with strong human expert consensus via integrated filtering strategies.

创建时间：

2025-12-13

原始信息汇总

Multimodal RewardBench 2 (MMRB2) 数据集概述

数据集基本信息

数据集名称：Multimodal RewardBench 2 (MMRB2)
核心用途：评估处理交错文本和图像序列的全能模型（omni models）的奖励模型。
发布机构：Meta FAIR
相关论文：Multimodal RewardBench 2: Evaluating Omni Reward Models for Interleaved Text and Image
数据集地址：https://huggingface.co/datasets/rl-research/multimodal-rewardbench-2
代码仓库地址：https://github.com/facebookresearch/MMRB2
许可证：CC BY-NC 4.0

数据集内容与结构

任务类别

数据集涵盖以下四个任务类别：

文本到图像生成
图像编辑
交错文本和图像生成
多模态推理

数据规模与来源

评估对数量：总计 4,000 个专家标注的偏好对，每个任务类别包含 1,000 对。
响应来源：来自 23 个模型和智能体（例如 GPT-5 和 Nano Banana）的响应。
提示来源：从 20 多个基准数据集中汇总的实用且具有挑战性的任务提示，以及新创建的提示。

数据格式

每个任务的 JSON 文件包含一个 pairs 列表，每个配对具有以下结构：

pair_id：唯一配对标识符。
prompt_source：源基准名称。
prompt_content：包含文本和图像元素的交错内容列表。
prompt_metadata：提示的元数据。
response_a 与 response_b：分别包含模型名称和交错响应内容（图像和文本）。
chosen：标注为更优的响应（“A” 或 “B”）。
human_annotations：人工标注详情。

数据文件

构建完成后，数据集包含以下文件：

t2i.json：文本到图像生成任务数据。
edit.json：图像编辑任务数据。
interleaved.json：交错生成任务数据。
reasoning.json：多模态推理任务数据。
images/ 目录：存放响应图像。
input_images/ 目录：存放输入/提示图像。

评估与基准结果

评估协议

采用位置一致的标准化评估协议。
评估流程分为两部分：
1. 使用多模态 LLM 作为评判员生成判断（可选）。
2. 根据判断文件计算准确率。

主要模型性能结果（平均准确率）

GPT-5：72.2%
Gemini 2.5 Pro：70.9%
Gemini 3 Pro：76.3%
GPT-4o：59.7%
Qwen3-VL-32B：64.6%
人类专家：>90%

使用说明

快速开始

安装：克隆仓库并安装 Python 依赖。
构建基准数据：
- 推荐从 HuggingFace 快速下载完整数据集。
- 或从原始源构建。

重要注意事项

该数据集根据 CC BY-NC 4.0 许可发布，仅用于基准测试目的，不得用于训练模型。
数据集包含使用人工智能技术生成的内容，用户需遵守有关 AI 生成内容披露的适用法律。
从其他位置提取的第三方内容（提示、源基准中的图像）受其自身许可证约束。

搜集汇总

数据集介绍

构建方式

在人工智能领域，奖励模型对于训练大型语言模型至关重要，但在处理交错图像与文本序列的Omni模型中仍待深入探索。Multimodal RewardBench 2 (MMRB2)的构建采用了系统化的基准创建流程，涵盖文本到图像生成、图像编辑、交错生成以及多模态推理四大任务类别。该数据集从23个模型和代理中收集了每个任务1000对专家标注的偏好对，这些数据源自21个源任务，并通过集成过滤策略筛选出具有高度人类专家共识的偏好对，确保了数据的可靠性与挑战性。

特点

MMRB2数据集展现出多方面的显著特点，其设计融合了实用且富有挑战性的提示，并整合了来自超过20个基准数据集及新创建任务的多样化来源。数据集包含4000个评估对，由GPT-5和Nano Banana等前沿模型与代理生成响应，提供了高质量的偏好标签以指示更优的模型输出。此外，数据集采用了位置一致的标准化评估协议，支持对多模态理解与交错生成能力的全面测评，为奖励模型的性能评估提供了坚实基准。

使用方法

使用MMRB2数据集时，研究人员可通过快速设置从HuggingFace直接下载完整的基准数据，或从原始源进行构建。数据集以JSON格式组织，每个任务文件包含独特的配对标识、提示来源、交错内容以及两个模型响应与人类标注的选择结果。评估过程分为两个部分：首先利用提供的脚本生成多模态LLM法官的评判，随后计算预测准确率。用户可灵活添加自定义模型进行测评，并通过标准化流程获得各任务及整体的性能指标，从而深入分析奖励模型在多模态任务中的表现。

背景与挑战

背景概述

在人工智能领域，奖励模型对于训练大型语言模型至关重要，然而，针对处理交错图像与文本序列的全能模型，其奖励模型的评估体系尚不完善。Multimodal RewardBench 2 (MMRB2) 由Meta FAIR的研究团队于近期提出，旨在填补这一空白。该数据集聚焦于评估全能奖励模型在多模态理解与交错生成任务中的性能，涵盖了文本到图像生成、图像编辑、交错生成及多模态推理四大核心任务。通过整合来自23个先进模型与代理的响应，并基于超过20个源任务构建了4000个专家标注的偏好对，MMRB2为多模态奖励模型的系统化评估奠定了坚实基础，推动了该领域向更精细、更实用的方向发展。

当前挑战

MMRB2致力于解决多模态奖励模型评估中的核心挑战，即如何准确衡量模型在复杂交错内容生成与理解任务中的偏好对齐能力。构建过程中的主要挑战在于确保数据的高质量与代表性：首先，需要设计既具实践意义又富有挑战性的提示，以覆盖真实应用场景；其次，收集并整合来自众多前沿模型与代理的多样化响应，涉及大规模的数据采集与处理；最后，通过集成过滤策略获取具有强人类专家共识的偏好标注，这一过程对标注一致性与可靠性提出了极高要求，以确保基准的公正性与有效性。

常用场景

经典使用场景

在人工智能领域，特别是多模态大模型的研究中，评估奖励模型（Reward Models）的性能一直是一个核心挑战。Multimodal RewardBench 2 (MMRB2) 作为一个综合性基准测试集，其经典使用场景在于系统性地评估奖励模型在交织文本与图像序列上的理解和生成能力。该数据集通过四个精心设计的任务类别——文本到图像生成、图像编辑、交织生成以及多模态推理，为研究者提供了一个标准化的评估框架。每个任务包含1000个专家标注的偏好对，这些数据来源于23个前沿模型和代理在21个源任务上的输出，确保了评估的全面性和挑战性。研究者利用MMRB2可以客观比较不同奖励模型的判别准确性，例如通过计算模型预测与人类专家偏好之间的一致性来量化性能。

实际应用

在实际应用层面，MMRB2 为开发和优化多模态人工智能系统提供了关键的评估工具。例如，在内容生成平台中，开发者可以利用该基准测试不同的奖励模型，以筛选出能够更准确判断生成内容质量的模型，从而提升图像生成、图文编辑等功能的用户体验。在智能助手或创意代理的研发中，通过MMRB2评估模型在交织文本与图像任务上的表现，有助于构建更可靠、更符合人类偏好的对话与内容生成系统。此外，该数据集支持的最佳N采样（Best-of-N sampling）验证表明，其在基准上的性能与下游任务成功率强相关，这为产业界将实验室评估结果转化为实际产品改进提供了实证依据。

衍生相关工作

围绕 MMRB2 数据集，已经衍生出一系列重要的相关研究工作。最直接的应用体现在对现有“法官”模型（如多模态大模型即法官，LLM-as-a-judge）的全面评估上，研究揭示了GPT-5、Gemini系列及Qwen等模型在不同任务上的判别能力边界。该基准也催生了针对特定子任务（如图像编辑）的专用奖励模型（如EditReward）的开发和评估。更进一步，MMRB2 的分析框架启发了对奖励模型失败模式的深入探究，例如在复杂推理任务上性能不足的原因分析，这为设计更鲁棒的多模态对齐算法提供了理论洞见。这些工作共同推动了一个更严谨、更可复现的多模态奖励模型研究生态的形成。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集