EDITREWARD-DATA
收藏arXiv2025-09-30 更新2025-11-20 收录
下载链接:
https://hf-mirror.com/datasets/TIGER-Lab/EditReward-Data
下载链接
链接失效反馈官方服务:
资源简介:
EDITREWARD-DATA是一个大规模、高保真的偏好数据集,专为指令引导的图像编辑任务而构建。该数据集包含超过20万个由训练有素的专家按照严格协议精心标注的偏好对,涵盖了由七个最先进的模型生成的各种编辑类型。数据集的每个偏好标注都是经过标准化流程处理的,以确保与人类判断的高度一致性并最小化标签噪声。EDITREWARD-DATA的独特之处在于它结合了大规模的专家人工标注和多维评分标准,为训练编辑奖励模型提供了一个强大的基础。
EDITREWARD-DATA is a large-scale, high-fidelity preference dataset built specifically for instruction-guided image editing tasks. This dataset contains over 200,000 preference pairs meticulously annotated by trained experts following strict protocols, covering diverse editing types generated by seven state-of-the-art models. Each preference annotation in the dataset undergoes a standardized processing pipeline to ensure high consistency with human judgment and minimize label noise. What distinguishes EDITREWARD-DATA is its combination of large-scale expert manual annotations and multi-dimensional scoring criteria, providing a robust foundation for training editing reward models.
提供机构:
University of Waterloo, Tsinghua University, 2077AI, McGill University, Independent
创建时间:
2025-09-30
搜集汇总
数据集介绍

构建方式
在指令引导图像编辑领域,数据质量直接影响模型性能的背景下,EDITREWARD-DATA通过系统化流程构建了大规模人类偏好数据集。该数据集从六个权威编辑基准中采集9557组指令-图像对,覆盖语义基础和可执行编辑指令的广泛场景。采用六种前沿生成模型以多随机种子策略生成候选图像,确保模型偏差最小化。每个指令随机选取七张候选图像,由训练有素的标注专家按照严格协议进行双维度4级评分,涵盖指令遵循度和视觉质量两个核心评估维度,最终形成超过20万组高质量偏好标注对。
特点
EDITREWARD-DATA在图像编辑评估领域展现出独特的数据特性。其核心优势在于融合了大规模专家人工标注与多维度评分体系,标注质量显著优于传统众包数据集。数据来源涵盖十二个不同渠道,确保了编辑类型的多样性分布。双维度评分机制能够精细捕捉编辑质量的不同侧面:指令遵循度评估语义准确性、完整性和无额外修改,视觉质量则关注合理性、无伪影渲染和美学表现。这种设计使得数据集既能反映整体编辑质量,又能解析不同维度的优劣权衡,为训练精细化奖励模型提供了丰富监督信号。
使用方法
该数据集主要服务于指令引导图像编辑奖励模型的训练与评估。研究人员可利用EDITREWARD-DATA训练专业化奖励模型,通过多维度不确定性感知排序损失函数优化模型参数。训练过程中,模型学习同时预测指令遵循度和视觉质量两个维度的概率分布,并通过不同聚合策略计算综合得分。数据集还可用于构建评估基准EDITREWARD-BENCH,支持从二元到四元的多路偏好预测任务。在实际应用中,训练完成的奖励模型能够对图像编辑结果进行质量评分,进而从噪声数据中筛选高质量样本,为下一代图像编辑模型的训练提供数据净化支持。
背景与挑战
背景概述
EDITREWARD-DATA数据集于2025年由滑铁卢大学、清华大学等机构联合构建,聚焦于指令引导图像编辑领域。该数据集针对开源模型缺乏可靠奖励机制的核心瓶颈,通过整合六项权威基准的9557组指令-图像对,并基于七种前沿模型生成逾20万组专家标注偏好数据,显著提升了图像编辑任务中人类偏好对齐的精准度。其多维评分体系与大规模高质量标注为训练专用奖励模型奠定了坚实基础,推动了开放生态中图像编辑技术的迭代与发展。
当前挑战
在解决图像编辑质量评估问题时,传统方法面临三重挑战:基于感知指标如LPIPS无法捕捉语义对齐,特征评分如CLIP难以理解编辑语义,而通用视觉语言模型的评判则缺乏任务特异性优化。数据构建过程中需克服标注噪声与一致性难题,现有众包标注存在标注者间一致性低、合成标签偏差显著等问题。EDITREWARD-DATA通过设计严格标注协议与多维评分机制,有效缓解了标注噪声,但如何保持跨模型编辑结果的公平评估与复杂指令的细粒度解析仍是持续挑战。
常用场景
经典使用场景
在指令引导图像编辑领域,EDITREWARD-DATA作为高质量人类偏好数据集,其经典应用场景在于为图像编辑任务提供细粒度评估基准。该数据集通过整合六大权威基准的9557组指令-图像对,并基于七种前沿模型生成多样化编辑结果,构建了覆盖语义准确性与视觉质量的双维度标注体系。这种多维度评估框架能够精准捕捉编辑结果与人类偏好的对齐程度,为训练下一代图像编辑模型提供了可靠的监督信号。
实际应用
在实际应用层面,EDITREWARD-DATA驱动的奖励模型已展现出强大的数据筛选能力。通过从ShareGPT-4o-Image数据集中筛选前2万高质量样本,并用于微调Step1X-Edit模型,在GEdit-Bench上实现了整体评分从6.7到7.1的显著提升。这种基于人类偏好的数据净化机制,证明了该数据集在提升开源图像编辑模型性能方面的实用价值,为构建高质量训练数据管道提供了可复现的工程范式。
衍生相关工作
该数据集催生了多项创新性研究工作,其中最具代表性的是基于多维不确定性感知排序的奖励模型架构。通过将传统高斯分布建模扩展为双维度独立参数预测,并结合悲观最小化、平衡平均与直接求和三种聚合策略,实现了对编辑质量更精细的建模。此外,提出的并列样本解耦技术通过挖掘并列对中的维度优势差异,使模型能够学习复杂质量权衡,相关方法已在GenAI-Bench等基准上取得65.72%的领先性能。
以上内容由遇见数据集搜集并总结生成



