MAT SDXL-Inpainting
收藏arXiv2025-04-29 更新2025-05-13 收录
下载链接:
http://arxiv.org/abs/2504.20438v1
下载链接
链接失效反馈官方服务:
资源简介:
MAT SDXL-Inpainting 数据集由华中科技大学和维沃人工智能实验室共同构建,包含1400万张图像-掩码对。该数据集旨在解决图像修复中的复杂结构和语义一致性问题。数据集包含了丰富的前景和背景信息,并采用了Auto-Labeling框架进行标注,以确保数据质量。该数据集可用于训练图像修复模型,并已在多个公开数据集上进行评估,如Places2、CelebA-HQ和FFHQ,以验证其在结构一致性和语义一致性方面的性能。
The MAT SDXL-Inpainting dataset was co-developed by Huazhong University of Science and Technology and Vivo AI Lab, containing 14 million image-mask pairs. This dataset aims to address the challenges of complex structure and semantic consistency in image inpainting. It features rich foreground and background information, and adopts an Auto-Labeling framework for annotation to ensure high data quality. This dataset can be used for training image inpainting models, and has been evaluated on multiple public datasets including Places2, CelebA-HQ and FFHQ to verify its performance in terms of structural consistency and semantic consistency.
提供机构:
华中科技大学, 维沃人工智能实验室
创建时间:
2025-04-29
搜集汇总
数据集介绍

构建方式
MAT SDXL-Inpainting数据集的构建采用了前沿的视觉语义分割技术,通过整合AlphaCLIP与SAM模型实现了精细化的前景与背景标注。研究团队从COCONutLarge、Object365V2等四大视觉数据源中精选1400万张图像,采用半自动标注流程定义了116类前景物体和21类背景场景,构建出包含430万前景图像-掩码对和970万背景图像-掩码对的大规模训练集。该数据集创新性地融合了对象语义掩码、场景语义掩码、随机笔刷掩码和随机对象掩码四种标注策略,通过潜在类别引导机制(LCG)将复杂语义信息编码为固定维度的前景/背景嵌入向量。
特点
该数据集的核心特征体现在其多层次的结构语义一致性保障体系。通过潜在扩散模型架构,将前景背景特征分离编码为20维嵌入向量,利用线性注意力机制在去噪过程中实现间歇式特征注入,有效解决了传统方法在纹理过渡、色彩融合和逻辑连贯性方面的缺陷。数据集的独特优势在于:既保留了随机掩码对结构信息的捕捉能力,又通过语义掩码增强了复杂场景的理解深度;既避免了精确类别标注带来的泛化限制,又通过二分类潜在嵌入实现了对116类前景和21类背景的隐式表征。定量评估显示,基于该数据集训练的PixelHacker模型在Places2、CelebA-HQ等基准测试中FID指标提升35%以上。
使用方法
该数据集的使用遵循分层训练范式,研究者需先在1400万图像-掩码对上进行LCG范式预训练,再在目标数据集(如Places2)进行微调。使用时需将噪声图像、干净掩码和掩码后图像三通道拼接,通过VAE编码器转换至潜在空间。关键操作包括:在前景处理中应用对象语义掩码引导物体重建,在背景处理中组合场景语义掩码与随机掩码增强上下文感知。推理阶段采用2.0规模的分类器无关引导(CFG),通过线性注意力机制实现潜在特征与去噪过程的动态交互。该数据集兼容256×256至512×512分辨率输入,支持对复杂层次场景和光照条件的自适应处理。
背景与挑战
背景概述
MAT SDXL-Inpainting数据集由华中科技大学与VIVO AI Lab联合团队于2025年提出,旨在解决图像修复领域中结构一致性与语义连贯性的核心问题。该数据集包含1400万经过前景(116类)与背景(21类)标注的图像-掩膜对,通过构建潜在类别引导(LCG)范式,显著提升了扩散模型在复杂场景下的修复能力。作为计算机视觉领域图像编辑与生成任务的基础性研究,该数据集通过预训练-微调机制在Places2、CelebA-HQ等基准测试中实现了最先进性能,推动了语义感知修复技术的发展。
当前挑战
该数据集面临的挑战主要体现在两方面:领域问题层面,传统方法难以处理纹理丰富区域的色彩过渡、被遮挡物体的特征还原等复杂结构语义问题,导致生成内容存在逻辑谬误与视觉伪影;构建过程层面,需平衡随机掩膜与语义掩膜的优势,设计固定维度嵌入表征116类前景与21类背景的潜在特征,同时避免显式类别监督带来的泛化性限制。此外,数据标注需整合AlphaCLIP与SAM模型实现细粒度分割,计算资源消耗与多数据集(如COCONutLarge、Object365V2)的异构数据处理亦构成技术难点。
常用场景
经典使用场景
MAT SDXL-Inpainting数据集在图像修复领域具有广泛的应用,尤其在处理复杂结构和语义一致性方面表现出色。该数据集通过标注前景和背景类别,构建了大规模的图像-掩码对,为模型训练提供了丰富的数据支持。其经典使用场景包括自然场景修复、人脸图像修复以及复杂纹理和形状的恢复。通过预训练和微调,该数据集能够显著提升模型在多个公开基准测试中的表现。
解决学术问题
MAT SDXL-Inpainting数据集解决了图像修复领域中的多个关键学术问题,尤其是在结构一致性和语义一致性方面的挑战。传统方法在处理复杂纹理和形状时往往产生语义不一致或结构扭曲的问题,而该数据集通过潜在类别引导(LCG)范式,有效整合了前景和背景的语义信息,显著提升了修复结果的视觉质量。此外,该数据集还通过大规模数据训练和线性注意力机制,优化了模型的生成能力,使其在多个基准测试中达到最先进的性能。
衍生相关工作
MAT SDXL-Inpainting数据集衍生了多项经典工作,尤其是在基于扩散模型的图像修复领域。例如,PixelHacker模型通过潜在类别引导(LCG)范式,显著提升了修复结果的结构和语义一致性。此外,该数据集还推动了多个基准测试(如Places2、CelebA-HQ和FFHQ)上的性能优化,为后续研究提供了重要的数据支持和模型框架。这些工作不仅在学术上取得了突破,也在实际应用中展现了广泛的价值。
以上内容由遇见数据集搜集并总结生成



