reference-degraded-target triplets

Name: reference-degraded-target triplets
Creator: 南开大学, 新加坡国立大学, 浙江大学
Published: 2025-11-26 02:40:25
License: 暂无描述

arXiv2025-11-26 更新2025-11-27 收录

下载链接：

https://ouyangziheng.github.io/ImageCritic-Page/

下载链接

链接失效反馈

官方服务：

资源简介：

本研究构建的参考-退化-目标三元组数据集由南开大学等机构联合开发，专为解决生成图像细粒度不一致问题而设计。该数据集包含1万组高质量样本，通过VLM筛选策略构建参考-目标对，并采用Flux-Fill模型对局部区域进行可控退化以模拟实际生成缺陷。数据创建过程融合了多模态大模型的智能评估与语义分割技术，确保数据质量与真实性。该数据集主要应用于图像生成一致性校正领域，为提升定制化生成模型的细节保真度提供关键训练资源。

提供机构：

南开大学, 新加坡国立大学, 浙江大学

创建时间：

2025-11-26

原始信息汇总

The Consistency Critic: Correcting Inconsistencies in Generated Images via Reference-Guided Attentive Alignment

作者与机构

Ziheng Ouyang¹
Yiren Song²
Yaoli Liu³
Shihao Zhu¹
Qibin Hou¹
Ming-Ming Cheng¹
Mike Zheng Shou²

¹VCIP, Nankai University
²Show Lab, National University of Singapore
³State Key Laboratory of CAD&CG, Zhejiang University

数据集构建方法

通过基于VLM的选择和显式退化获得参考-退化-目标三元组
有效模拟现有生成模型中常见的错误或不一致现象

技术方法

采用参考引导的后编辑方法
基于对模型注意力机制和内在表示的全面检查
设计注意力对齐损失和细节编码器
可集成到智能体框架中实现自动不一致性检测和修正
支持多轮编辑和局部编辑处理复杂场景

应用场景

解决各种定制化生成场景中的细节相关问题
有效纠正生成图像中的不一致性问题

搜集汇总

数据集介绍

构建方式

在图像生成领域，为解决生成图像与参考图像间细粒度细节不一致的问题，reference-degraded-target triplets数据集通过多阶段流程构建。首先利用先进文本到图像模型生成多样化场景图像，再结合视觉语言模型进行质量筛选与语义标注，确保参考-目标对的高一致性。随后采用显式退化策略，通过局部区域掩码与填充模型模拟文本渲染错误、标志错位等常见生成缺陷，最终形成包含高质量三元组的数据集合。

使用方法

该数据集主要应用于生成图像的一致性修正任务，研究者可将三元组作为训练样本输入至扩散变换器架构中。通过联合优化注意力对齐损失与细节编码器，使模型学会定位并修复局部不一致区域。在推理阶段，可结合智能体框架实现全自动工作流，包括不一致区域检测、参考块检索与多轮局部编辑，最终生成与参考图像保持高度细节一致性的修正结果。

背景与挑战

背景概述

reference-degraded-target triplets数据集由南开大学、新加坡国立大学及浙江大学研究团队于2025年联合构建，旨在解决扩散模型生成图像时存在的细粒度细节不一致问题。该数据集通过视觉语言模型筛选与显式退化策略，系统模拟了现有生成模型在文本渲染、标志对齐等局部区域常见的失真现象，为图像一致性修复研究提供了关键数据支撑。其创新性在于构建了包含参考图像、退化图像与目标图像的三元组结构，显著推动了定制化图像生成领域向高保真度方向的发展。

当前挑战

该数据集核心挑战聚焦于细粒度一致性修复任务中数据构建与模型优化的双重难点。在领域问题层面，需解决生成图像与参考图像间文本、标志等微观元素的语义对齐难题，克服因VAE编解码差异导致的细节丢失问题。数据构建过程中面临高质量参考-目标配对稀缺的困境，需通过VLM筛选与可控退化技术平衡数据真实性与多样性，同时避免引入不可控的视觉伪影。模型训练阶段还需突破注意力机制耦合导致的局部修正模糊化瓶颈，实现像素级精准对齐。

常用场景

经典使用场景

在定制化图像生成领域，reference-degraded-target triplets数据集通过构建参考图像、退化图像与目标图像的三元组，为细粒度一致性修复任务提供了关键训练基础。该数据集模拟了当前生成模型常见的文本模糊、标志错位等细节失准现象，使模型能够学习从退化版本中恢复与参考图像高度一致的视觉特征，显著提升了生成图像在复杂场景下的细节保真度。

解决学术问题

该数据集有效解决了生成式人工智能中长期存在的细粒度不一致性难题，特别是针对扩散模型在编码解码过程中产生的浅层信息丢失问题。通过引入基于视觉语言模型的筛选策略和显式退化机制，它不仅填补了高质量局部细节训练数据的空白，更推动了注意力对齐损失、细节编码器等创新方法的诞生，为生成模型的像素级一致性控制提供了理论支撑与实践范式。

实际应用

在虚拟试装、品牌广告生成等实际场景中，该数据集支撑的校正系统能精准修复生成图像中的文本渲染错误与标志变形问题。其衍生的智能体工作流可自动定位不一致区域并执行多轮局部编辑，大幅提升了电商视觉内容生成、跨语言产品展示等商业应用的细节还原度，同时保持了背景光照与空间关系的自然连贯性。

数据集最近研究