DiffDoctor

Name: DiffDoctor
Creator: 香港大学, 同义实验室, 蚂蚁金融服务集团, 浙江大学
Published: 2025-01-22 02:56:41
License: 暂无描述

arXiv2025-01-22 更新2025-02-25 收录

下载链接：

http://arxiv.org/abs/2501.12382v1

下载链接

链接失效反馈

官方服务：

资源简介：

DiffDoctor数据集由香港大学、同义实验室、蚂蚁金融服务集团和浙江大学的研究团队创建，旨在解决图像扩散模型生成图像时出现的伪影问题。该数据集包含超过100万条有缺陷的合成图像，涵盖了形状扭曲、不合理内容和水印等多种伪影类型。数据集的创建过程采用了人机协作的标注策略，确保标注的准确性和类别的平衡。该数据集的应用领域主要集中在图像生成模型的优化，通过像素级的伪影检测和反馈，帮助模型减少生成图像中的伪影，提高生成图像的质量和稳定性。

The DiffDoctor Dataset was created by research teams from The University of Hong Kong, Tongyi Laboratory, Ant Financial Services Group, and Zhejiang University, aimed at resolving artifact issues in images generated by image diffusion models. This dataset contains over 1 million defective synthetic images, encompassing multiple artifact categories including shape distortion, nonsensical content, watermarks, and others. A human-machine collaborative annotation approach was employed during the dataset's construction to ensure annotation accuracy and category balance. Its primary application lies in the optimization of image generation models: through pixel-level artifact detection and feedback, it assists models in reducing artifacts in generated images, thereby improving the quality and stability of the output images.

提供机构：

香港大学, 同义实验室, 蚂蚁金融服务集团, 浙江大学

创建时间：

2025-01-22

搜集汇总

数据集介绍

构建方式

DiffDoctor数据集的构建方式是通过收集超过100万张合成图像，并利用高效的人工参与标注流程，同时结合精心设计的类别平衡策略来训练一个鲁棒的缺陷检测器。首先，数据集通过合成各种图像并选择困难的案例进行人工标注，同时较简单的案例则通过自动标注来提高数据标注的效率。为了解决数据不平衡问题，数据集还引入了高质量的真实照片作为负样本，并通过LLM生成各种提示来合成包含挑战性的正负样本的图像，进一步平衡数据分布。此外，数据集还通过预测未选为困难案例的图像的伪标签来扩展训练数据，并采用动态增强策略来增强伪标签的数据质量。

特点

DiffDoctor数据集的特点在于其数据规模庞大，包含超过100万张合成图像，并且通过人工参与和自动标注相结合的方式，保证了数据的质量和标注的准确性。数据集采用了类别平衡策略，有效地解决了数据不平衡问题，使得缺陷检测器能够在各种场景下都能表现出色。此外，数据集还通过预测伪标签的方式扩展了训练数据，提高了缺陷检测器的泛化能力和鲁棒性。

使用方法

DiffDoctor数据集的使用方法主要是通过训练一个鲁棒的缺陷检测器，然后利用这个检测器来诊断图像中的缺陷，并指导扩散模型进行调整，以减少未来合成图像中的缺陷。具体来说，缺陷检测器会预测每个像素的缺陷置信度，然后通过像素级别的损失函数来指导扩散模型进行调整。此外，数据集还可以与其他扩散损失函数相结合，以进一步提高模型的质量和稳定性。

背景与挑战

背景概述

随着图像扩散模型的发展，尽管在生成图像方面取得了显著进步，但模型生成的图像仍可能出现失真、不合理或不希望的内容，即所谓的“伪影”。为了解决这一问题，研究者们通常采用质量评估系统来改进现有模型，但这种系统通常是对整个图像进行评估。DiffDoctor数据集的提出，旨在通过识别和定位图像中的伪影，帮助图像扩散模型生成更少的伪影。该数据集由香港大学、同义实验室、蚂蚁金融服务集团和浙江大学的研究人员创建，于2025年1月发布。DiffDoctor数据集的核心研究问题是，如何通过像素级别的反馈来调整图像扩散模型，以减少伪影的产生。该数据集对图像生成领域的研究产生了重要影响，为提高图像生成模型的质量和稳定性提供了新的思路。

当前挑战

DiffDoctor数据集面临的挑战主要包括：1)伪影检测的挑战：由于现有的伪影标注数据集存在不平衡的问题，导致训练出的伪影检测器在特定类别上的误报率较高。为了解决这个问题，DiffDoctor数据集采用了精心设计的类别平衡策略和人类参与的标注过程，并利用半监督学习方法扩大数据集规模。2)扩散模型调整的挑战：DiffDoctor数据集采用了一种“诊断-治疗”的设计，通过像素级别的反馈来调整扩散模型，以减少伪影的产生。然而，过度调整模型可能会导致模型崩溃，即图像质量下降。为了解决这个问题，DiffDoctor数据集采用了早期停止和KL正则化方法。3)数据集规模的挑战：由于计算资源的限制，DiffDoctor数据集无法在大量的提示上进行训练。为了解决这个问题，未来的研究可以考虑在更广泛的场景和更多类型的伪影上进行训练，以进一步发挥DiffDoctor数据集的潜力。

常用场景

经典使用场景

DiffDoctor数据集主要用于图像扩散模型的诊断和修复，其经典使用场景包括：1. 诊断图像扩散模型中存在的瑕疵，例如图像中的伪影、不合理内容和水印等；2. 通过像素级别的反馈对图像扩散模型进行微调，以减少未来合成图像中的伪影；3. 利用该数据集训练的伪影检测器来优化图像扩散模型，提高图像生成质量。

衍生相关工作

DiffDoctor数据集衍生了许多相关的经典工作。例如，SynArtifact和PAL4VST等数据集也提供了带有伪影区域的合成图像，但DiffDoctor采用了更精细的像素级标注策略，并通过人机交互流程和类平衡策略来提高数据集的质量。此外，DiffDoctor还提出了像素级反馈的图像扩散模型微调方法，该方法通过对每个像素的伪影置信度进行最小化，来减少未来合成图像中的伪影。

数据集最近研究