GenRef
收藏arXiv2025-04-23 更新2025-04-24 收录
下载链接:
https://diffusion-cot.github.io/reflection2perfection
下载链接
链接失效反馈官方服务:
资源简介:
GenRef是一个大规模的图像反思数据集,由香港中文大学MMLab创建,包含100万个反思三元组,每个三元组由一个反思、一个有缺陷的图像和一个增强的图像组成。该数据集通过四个不同的数据来源,利用可验证的目标、集成奖励模型和多样化的滚动策略,构建了一个自动化的数据构建管道。GenRef旨在为图像生成模型提供自反思能力,通过迭代评估和纠正之前生成的输出,从而提高图像质量。
GenRef is a large-scale image reflection dataset created by the MMLab of The Chinese University of Hong Kong. It contains 1 million reflection triplets, each consisting of a reflection annotation, a defective image, and an enhanced image. This dataset constructs an automated data construction pipeline through four distinct data sources, leveraging verifiable objectives, integrated reward models, and diverse rolling strategies. GenRef aims to equip image generation models with self-reflection capabilities, improving image quality via iterative evaluation and correction of previously generated outputs.
提供机构:
香港中文大学
创建时间:
2025-04-23
搜集汇总
数据集介绍

构建方式
GenRef数据集的构建采用了多源数据融合与自动化标注技术,通过四种创新性数据采集策略实现:基于规则的物体属性组合生成、多模态奖励模型筛选的高质量样本对、长短文本提示衍生的图像质量对比,以及现有图像编辑数据集的迁移整合。研究人员首先利用GPT-4o构建语义丰富的提示词库,通过FLUX.1-dev模型生成候选图像后,采用Grounded SAM进行物体定位验证,并基于集成奖励模型(HPSv2、CLIP Score等)进行质量分级。特别设计了链式思维标注流程,由大语言模型逐步分析图像差异并生成可执行指令,最终形成包含100万组(缺陷图像-优化图像-反思指令)的三元组数据集。
特点
该数据集的核心价值体现在三个方面:规模上覆盖100万组跨领域样本,包含227K链式思维精细标注;质量上采用三重验证机制确保缺陷图像真实反映生成模型典型错误,优化图像具有显著质量提升,反思指令具备明确可操作性;多样性方面整合物体空间关系、色彩属性、复杂构图等七大评估维度。独特的多粒度反思标注体系支持从简单物体替换到复杂场景重构的渐进式优化,其附带的质量评分和差异分析为构建视觉反馈模型提供了丰富监督信号。
使用方法
使用GenRef需遵循三步范式:首先加载基础扩散模型(如FLUX.1-dev)作为生成器,通过反射调优技术将数据集三元组编码为统一的多模态序列输入;推理阶段采用ReflectionFlow框架,依次执行噪声空间搜索(调整初始潜在变量)、提示词进化(基于MLLM的语义精炼)和反射迭代(依据质量验证器反馈进行图像修正)。建议配合集成奖励模型进行样本筛选,并通过调整并行链数量(N)与反思深度(M)平衡计算效率与生成质量。该数据集同时支持视觉偏好对齐、编辑指令微调等衍生任务。
背景与挑战
背景概述
GenRef数据集由CUHK MMLab、KAUST、Hugging Face和Shanghai AI Lab的研究团队于2025年提出,旨在解决文本到图像扩散模型在复杂场景和细粒度细节生成上的不足。该数据集包含100万组三元组数据(缺陷图像、增强图像和文本反馈),通过反射调优技术提升模型的自反思能力。其创新性在于首次将大型语言模型的自反思机制引入视觉生成领域,为FLUX.1-dev等先进扩散Transformer模型提供了高效的微调基础,显著推动了推理时优化的研究范式转变。
当前挑战
GenRef面临的挑战主要体现在两个方面:领域问题方面,需解决多对象组合的空间关系建模、复杂材质的光影还原等传统扩散模型的固有缺陷;数据构建方面,需确保缺陷图像真实反映常见错误、反馈指令具备可执行性,并通过自动化流程验证增强图像的质量提升。具体难点包括:1) 跨模态对齐中文本反馈与视觉编辑的精确映射;2) 基于规则与奖励模型的数据筛选平衡;3) 处理编辑指令与生成任务间的分布差异。
常用场景
经典使用场景
GenRef数据集在文本到图像扩散模型的推理时优化中扮演了核心角色,其经典使用场景在于通过反射调优机制实现图像的迭代优化。该数据集为模型提供了从初始生成到最终优化的完整流程支持,包括噪声初始化、语义引导优化以及基于反射的迭代修正。研究人员可利用数据集中的百万级三元组(缺陷图像、优化图像、文本反射)训练模型识别生成缺陷并执行精确编辑,尤其在处理复杂场景构图、细粒度细节修正方面展现出显著优势。
衍生相关工作
该数据集催生了多个标志性研究方向:基于反射调优的扩散变压器架构(如Reflect-DiT)通过上下文反射实现参数高效微调;OmniControl等研究将其扩展为通用图像编辑框架;在评估体系方面衍生了GenEval基准测试,推动文本-图像对齐指标的标准化。链式反射子集GenRef-CoT更启发了视觉链式推理(Visual CoT)的新范式,为多模态大模型的自我修正能力研究提供关键数据支撑。
数据集最近研究
最新研究方向
GenRef数据集作为首个专注于文本到图像扩散模型自优化的大规模反射数据集,其最新研究聚焦于推理时计算资源的动态分配与多维度协同优化。在生成式人工智能领域,该数据集推动了反射级缩放(reflection-level scaling)范式的确立,通过噪声初始化优化、语义提示动态增强与迭代式自我修正的三轴联动机制,显著提升了复杂场景下的细粒度生成质量。当前前沿探索集中在三个方面:一是基于链式思维标注(GenRef-CoT子集)的可解释性反射建模,通过227K高质量渐进式注释构建多模态反馈回路;二是推理时计算资源的弹性分配策略,结合搜索宽度(N)与反射深度(M)的动态平衡实现计算效率与生成质量的帕累托最优;三是跨模态统一注意力机制的轻量化微调,将原始提示、缺陷图像与反射指令编码为联合序列,在FLUX.1-dev等扩散变压器架构上实现无需新增模块的多轮优化。该方向与近期LLM中的自反思研究形成跨模态呼应,在空间关系推理、多对象组合等挑战性任务中展现出超越传统噪声缩放方法的性能增益,为构建具备持续自我优化能力的生成系统提供了数据基础与方法论支撑。
相关研究论文
- 1From Reflection to Perfection: Scaling Inference-Time Optimization for Text-to-Image Diffusion Models via Reflection Tuning香港中文大学 · 2025年
以上内容由遇见数据集搜集并总结生成



