CrispEdit-2M

Name: CrispEdit-2M
Creator: 字节跳动; 新加坡国立大学; 杜克大学; 上海交通大学; 香港科技大学·广州
Published: 2026-05-12 01:05:52
License: 暂无描述

arXiv2026-05-12 更新2026-05-13 收录

下载链接：

https://weichow23.github.io/EditMGT

下载链接

链接失效反馈

官方服务：

资源简介：

CrispEdit-2M是由字节跳动等机构联合构建的高分辨率图像编辑数据集，旨在为基于掩码生成变换器的图像编辑模型提供训练支持。该数据集包含200万个高质量样本，所有图像分辨率均不低于1024像素，覆盖了对象转换、风格迁移等七种不同的编辑类别，数据经过严格筛选以确保内容精准性。其创建过程整合了多源图像与文本指令，通过自动化与人工过滤相结合的方式构建，专注于解决扩散模型在图像编辑中存在的编辑泄漏问题，推动局部化、可控的图像生成与编辑技术的发展。

CrispEdit-2M is a high-resolution image editing dataset jointly constructed by ByteDance and other institutions, designed to provide training support for image editing models based on mask-guided generative Transformers. The dataset includes 2 million high-quality samples, with all images having a resolution of no less than 1024 pixels and covering seven distinct editing categories such as object transformation and style transfer. The data has been strictly screened to guarantee content accuracy. Its creation process integrates multi-source images and text instructions, and is constructed through a combination of automated processing and manual filtering. This dataset focuses on resolving the editing leakage problem in diffusion-based image editing, and aims to promote the development of localized and controllable image generation and editing technologies.

提供机构：

字节跳动; 新加坡国立大学; 杜克大学; 上海交通大学; 香港科技大学·广州

创建时间：

2026-05-12

原始信息汇总

根据您提供的HTML内容，以下是数据集CrispEdit-2M的详情总结：

数据集概述

CrispEdit-2M是一个高分辨率图像编辑数据集，专为训练图像编辑模型而构建，尤其服务于基于掩码生成变换器（MGT）的EditMGT框架。

核心规模与构成

总样本数： 约200万（2M）个高分辨率编辑样本。
分辨率： 所有图片的短边≥1024像素，主要集中分布在[1280, 1665)像素范围。
编辑类别： 涵盖7个不同的编辑类别。

编辑类别统计

编辑类别	样本数量（约）
添加（Add）	30万
替换（Replace）	30万
移除（Remove）	30万
颜色变更（Color alteration）	50万
背景更换（Background change）	20万
风格变换（Style transformation）	40万
运动修改（Motion modification）	3.4万

数据采集流程

数据集通过一个四阶段流程构建：

图像筛选： 从LAION-Aesthetics、Unsplash Lite和JourneyDB（FLUX重新生成版）中筛选高质量图像。筛选标准包括：美学评分>4.5、短边>1024像素、内容适宜性评估（使用Qwen3），并排除了简单图案、单调构图、含水印或文字叠加的图像，最终得到约550万样本。
定制化指令生成： 采用两阶段框架。第一阶段使用Qwen2.5-VL生成详细图像描述；第二阶段使用GPT-4o将这些描述转化为多模态编辑指令，并通过迭代自优化机制提高指令的复杂性与语言多样性。
特定编辑流程： 使用FLUX.1 Kontext和Step1X-Edit v1.2等先进模型进行编辑，随后用视觉语言模型（VLM）选择更优结果。
数据质量保证： 建立两阶段过滤框架：预处理阶段验证指令的语义与逻辑一致性；后处理阶段使用CLIP对齐指标和视觉相似度指标分别验证语义对应与非目标内容的保留。

关键特点

高分辨率优先： 专门优化用于高分辨率编辑任务。
高质量与多样性： 通过多源图像筛选、多模型编辑以及多模态指令生成，确保了数据的高质量与丰富多样性。

搜集汇总

数据集介绍

构建方式

CrispEdit-2M数据集基于图像编辑领域对高质量、高分辨率训练样本的迫切需求而构建。研究团队从多个公开数据源及网络采集原始图像与编辑指令对，经过严格的自动化与人工筛选流程，最终获得200万张分辨率不低于1024像素的编辑样本。数据集覆盖七大编辑类别，包括物体替换、风格迁移、局部添加与移除等任务。每对样本均包含原始图像、编辑图像及对应的自然语言指令，通过多阶段质量过滤机制剔除模糊、不匹配或低质量的样本，确保数据干净且语义对齐。

使用方法

CrispEdit-2M可直接用于训练基于MGT的图像编辑模型，如论文中提出的EditMGT框架。使用时，用户将原始图像、编辑图像与指令文本作为三元组输入，模型通过注意力注入机制将源图像特征作为条件，结合多层级注意力量化与局部解码策略实现区域精准编辑。数据集以高分辨率图像为主，适合在1024×1024及以上分辨率下训练，并可配合区域保持采样等后处理技术以提升编辑保真度。研究人员可依据编辑类别划分训练与测试子集，灵活适配不同编辑任务。

背景与挑战

背景概述

CrispEdit-2M数据集由字节跳动、新加坡国立大学、杜克大学、上海交通大学和香港科技大学（广州）的研究团队于2026年联合创建，旨在解决扩散模型在图像编辑中固有的编辑泄漏问题——即全局去噪机制导致修改不可避免地蔓延至非目标区域。该数据集收录了200万组高分辨率（≥1024像素）的编辑样本，涵盖七种编辑类别，为掩码生成式Transformer（MGT）这一新兴范式提供了首个大规模训练基准。EditMGT框架基于该数据集训练，仅需9.6亿参数即可在2秒内完成编辑，性能超越8B级别模型，在EMU Edit和MagicBrush等基准上取得了图像相似度（CLIPim）的领先成绩，有力推动了MGT在交互式图像编辑领域的发展。

当前挑战

CrispEdit-2M所面对的挑战是多维度的。首先，在领域层面，传统扩散模型的全局去噪机制使编辑区域与周围上下文深度纠缠，导致修改扩散至本应保持完整的区域，而现有的基于大规模训练、预定义掩码或反转技术的方案均无法彻底解决这一编辑泄漏问题。其次，在数据集构建过程中，研究团队面临着三个关键难题：一是需要从海量来源中筛选出严格过滤、语义对齐的高质量编辑样本；二是确保样本覆盖对象变换、场景替换、材质替换等七种复杂编辑类别，并维持类别间的均衡分布；三是所有样本均需满足≥1024像素的高分辨率要求，以支持精细编辑任务的训练需求。

常用场景

经典使用场景

CrispEdit-2M作为大规模、高分辨率、多类别的指令引导图像编辑数据集，其经典使用场景在于训练和评估基于生成式模型的编辑框架。研究者可借助该数据集中超过两百万对精心筛选的编辑样本，覆盖七种编辑类别，用于训练如EditMGT这类基于掩码生成变换器（MGT）的模型。该数据集的丰富性和高分辨率特性使其成为检验模型在精准定位编辑区域、保持非目标区域完整性以及理解复杂文本指令方面能力的理想基准，为图像编辑领域提供了一个标准化的大规模训练与测试平台。

解决学术问题

在学术研究中，CrispEdit-2M解决了扩散模型在指令引导图像编辑中固有的编辑泄漏问题。扩散模型因全局去噪机制而易使修改扩散至非目标区域，而该数据集通过提供配对的编辑前后样本，支持训练MGT模型利用局部化令牌预测范式，从架构上限制修改范围。它使研究者能够探索注意力巩固和区域保持采样等技术，从而在无需额外掩码的前提下实现精准编辑定位，显著提升了编辑的保真度与指令遵循能力，推动了生成式模型在细粒度图像编辑领域的基础研究。

实际应用

在实际应用中，CrispEdit-2M驱动的编辑模型可广泛应用于交互式图像编辑工具。例如，用户可以通过自然语言指令快速完成对象替换、风格迁移、颜色调整或背景更改等操作，而无需手动绘制掩码或进行复杂参数调整。该数据集支持的高效模型，如仅需两秒即可完成编辑的EditMGT，特别适用于实时设计辅助、社交媒体内容创作、广告图像修改和影视后期制作等场景，为用户提供了低成本、高速度且无需专业技能的编辑解决方案。

数据集最近研究