FIRM-Edit-370K; FIRM-Gen-293K

Name: FIRM-Edit-370K; FIRM-Gen-293K
Creator: 上海交通大学; 武汉大学; 北京邮电大学; 香港中文大学; 复旦大学; 上海人工智能实验室
Published: 2026-03-13 01:57:21
License: 暂无描述

arXiv2026-03-13 更新2026-03-14 收录

下载链接：

https://huggingface.co/collections/VisionXLab/firm-reward

下载链接

链接失效反馈

官方服务：

资源简介：

FIRM数据集由上海人工智能实验室等机构构建，包含FIRM-Edit-370K（37万条图像编辑数据）和FIRM-Gen-293K（29.3万条文本生成图像数据）两个子集。数据通过定制化流程收集：编辑数据采用'差异优先'策略分析图像对差异，生成数据通过清单式提示策略提取关键检查点。数据源自公开编辑数据集（如OpenGPT-4o-Image）及合成生成的负样本，确保评分分布均衡。该数据集用于训练专用奖励模型FIRM-Edit-8B/FIRM-Gen-8B，旨在解决图像生成/编辑中奖励模型幻觉问题，提升强化学习优化的准确性。

The FIRM dataset was constructed by institutions including the Shanghai AI Laboratory, and comprises two subsets: FIRM-Edit-370K (370,000 image editing data entries) and FIRM-Gen-293K (293,000 text-to-image generation data entries). The data was collected via a customized workflow: for the FIRM-Edit subset, a "difference-first" strategy was adopted to analyze the discrepancies between paired images; for the FIRM-Gen subset, a checklist-based prompting strategy was utilized to extract key checkpoints. The dataset is sourced from publicly available editing datasets such as OpenGPT-4o-Image, as well as synthetically generated negative samples, ensuring a balanced score distribution. This dataset is intended for training dedicated reward models FIRM-Edit-8B and FIRM-Gen-8B, aiming to address the reward model hallucination problem in image generation and editing, and improve the accuracy of reinforcement learning optimization.

提供机构：

上海交通大学; 武汉大学; 北京邮电大学; 香港中文大学; 复旦大学; 上海人工智能实验室

创建时间：

2026-03-13

搜集汇总

数据集介绍

构建方式

在图像生成与编辑领域，强化学习依赖奖励模型提供优化信号，然而通用多模态大语言模型作为奖励模型常产生幻觉与噪声评分。针对此问题，FIRM-Edit-370K与FIRM-Gen-293K数据集通过定制化数据构建流程精心构建。对于图像编辑任务，采用“差异优先”策略：首先利用多模态大语言模型对原始与编辑后图像进行双重差异分析，生成精确的文本差异描述，随后将该描述与图像对及编辑指令一同输入至另一模型进行执行度与一致性的细粒度评分。对于文本到图像生成任务，则采用“计划后评分”范式：大型语言模型根据生成指令动态分解为结构化评估清单，多模态大语言模型依据此清单对生成图像进行逐步检查与最终评分。数据源涵盖多个高质量开源数据集，并通过指令重写确保评分分布的均衡性。

特点

该数据集的核心特征在于其针对图像编辑与生成任务的高度专业化设计。FIRM-Edit-370K专注于编辑任务的评估，将奖励信号解耦为执行度与一致性两个独立维度，分别衡量指令遵循的准确性与未修改区域的保持程度，从而提供更精细的优化指导。FIRM-Gen-293K则针对生成任务，通过引入显式的结构化评估计划，有效缓解了多模态大语言模型在复杂指令评估时的注意力稀释问题，实现了与人类认知过程更接近的、可解释的奖励建模。两个数据集均具有大规模与高质量的特性，其构建流程显著减少了通用模型的幻觉与噪声，为训练可靠的专用奖励模型奠定了坚实基础。

使用方法

该数据集主要用于训练专用于图像编辑与生成任务的奖励模型，如FIRM-Edit-8B与FIRM-Gen-8B。经过监督微调得到的奖励模型，可作为强化学习流程中的“评论家”，为生成模型的策略优化提供准确可靠的奖励信号。在实际应用中，这些奖励模型被集成至如Edit-R1或Diffusion-NFT等强化学习框架中，通过新颖的“基础与加成”奖励融合策略（如用于编辑的一致性调制执行与用于生成的质量调制对齐）来平衡多个竞争性目标，有效防止奖励黑客行为，从而引导基础模型在忠实图像编辑与精确图像生成任务上实现显著的性能突破。此外，数据集还可用于评估奖励模型与人类偏好的一致性。

背景与挑战

背景概述

随着扩散模型与自回归模型的飞速发展，文本到图像生成与图像编辑技术已迈入全新阶段。强化学习作为优化生成模型的关键范式，其效能高度依赖于奖励模型所提供的精准优化信号。然而，现有通用多模态大语言模型在充当零样本奖励模型时，普遍存在幻觉、对象忽略与空间推理能力不足等问题，导致奖励信号不可靠，成为制约生成与编辑质量提升的核心瓶颈。为应对这一挑战，上海交通大学、武汉大学、上海人工智能实验室等机构的研究团队于2026年提出了FIRM框架，并构建了FIRM-Edit-370K与FIRM-Gen-293K数据集。该系列数据集旨在通过专门设计的数据构建流程，训练出能够为图像编辑与生成任务提供忠实、可靠奖励信号的专用模型，从而推动生成式人工智能在指令遵循与视觉保真度方面的实质性突破。

当前挑战

FIRM数据集旨在解决的领域核心挑战在于，如何为图像编辑与生成任务构建能够提供精准、无幻觉奖励信号的专用模型。通用多模态大语言模型作为奖励模型时，难以对编辑任务中的执行准确性与内容一致性进行细粒度评估，亦无法可靠地评判复杂生成指令的遵循程度，其产生的噪声信号会误导强化学习优化过程。在数据集构建过程中，研究团队面临多重具体挑战：其一，需设计创新的评估流程以克服模型作为“评判者”时的固有缺陷，例如为图像编辑任务提出“差异优先”的MLLM到LLM流水线，以及为生成任务设计基于检查表的“先规划后评分”范式。其二，需从开源数据集中精心筛选并合成高质量的训练样本，确保奖励分数分布的平衡性，避免模型偏向于高分或低分样本。其三，需构建全面的人类标注基准FIRM-Bench，以严格验证所训练奖励模型与人类偏好的一致性，这要求对样本进行精细的复杂度分层与分数分布控制。

常用场景

经典使用场景

在图像生成与编辑领域，强化学习已成为优化模型性能的主流范式，但其效果高度依赖于奖励模型的准确性。FIRM-Edit-370K与FIRM-Gen-293K数据集通过精心设计的数据构建流程，为图像编辑和文本到图像生成任务提供了高质量的奖励信号。这些数据集的核心应用场景在于训练专用的奖励模型，例如FIRM-Edit-8B和FIRM-Gen-8B，这些模型能够精准评估编辑任务中的执行度与一致性，以及生成任务中的指令遵循程度。通过将这些奖励模型集成到强化学习流程中，研究者能够引导生成模型在复杂视觉场景中实现更忠实、更可控的输出，从而显著提升图像编辑与生成的保真度与指令对齐水平。

解决学术问题

当前基于多模态大语言模型的奖励模型在评估细粒度图像任务时，常面临幻觉、对象忽略和空间推理不足等问题，导致奖励信号噪声较大，误导优化过程。FIRM数据集通过创新的数据构建策略，有效缓解了这些挑战。对于图像编辑，采用“差异优先”的管道，先描述源图像与编辑图像的视觉差异，再基于差异文本进行评分，提升了执行度与一致性评估的可靠性。对于文本到图像生成，引入基于检查表的提示策略，将用户指令分解为细粒度评估维度，减少模型幻觉。这些方法解决了奖励模型在复杂视觉任务中评分不准、对齐度低的学术难题，为强化学习提供了稳定且可信的优化指导。

衍生相关工作

FIRM数据集的发布催生了一系列围绕奖励建模与强化学习对齐的经典研究工作。基于FIRM-Edit和FIRM-Gen数据集训练的奖励模型，为后续图像编辑与生成模型的优化提供了可靠基准。例如，FIRM-Qwen-Edit模型利用FIRM-Edit-8B奖励模型，通过强化学习在GEditBench和ImgEdit基准上取得了最先进性能。同时，FIRM-SD3.5模型在FIRM-Gen-8B的指导下，在GenEval、DPGBench等生成基准上表现卓越。这些成果激励了更多研究探索任务特定的奖励建模方法，如EditScore和EditReward等工作进一步扩展了高保真奖励模型的应用范围。FIRM-Bench评估基准也为后续奖励模型的性能比较提供了标准化测试平台，推动了图像生成领域中对齐技术的持续发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集