CrispEdit-2M

Name: CrispEdit-2M
Creator: 字节跳动, 新加坡国立大学, 上海交通大学, 香港科技大学（广州）
Published: 2025-12-13 00:51:19
License: 暂无描述

arXiv2025-12-13 更新2025-12-16 收录

下载链接：

https://huggingface.co/datasets/WeiChow/CrispEdit-2M

下载链接

链接失效反馈

官方服务：

资源简介：

CrispEdit-2M是由字节跳动等机构联合构建的高分辨率（≥1024）图像编辑数据集，包含200万条经过严格筛选的样本，涵盖7种不同的编辑类别。该数据集通过开源模型收集初始样本并实施质量过滤流程，旨在解决生成式图像编辑中非目标区域被意外修改的泄漏问题。其高质量样本和多样化的编辑类型为训练EditMGT模型提供了坚实基础，主要应用于基于掩码生成变换器的精准图像编辑任务，支持风格转换、对象替换等复杂场景的局部化编辑需求。

CrispEdit-2M is a high-resolution (≥1024) image editing dataset jointly constructed by ByteDance and other institutions. It contains 2 million rigorously screened samples covering 7 distinct editing categories. The dataset collects initial samples via open-source models and implements a strict quality filtering pipeline, aiming to address the leakage issue of unintended modifications to non-target regions in generative image editing. Its high-quality samples and diverse editing types provide a solid foundation for training the EditMGT model. It is mainly applied to precise image editing tasks based on mask-based generative Transformers, supporting localized editing demands for complex scenarios such as style transfer and object replacement.

提供机构：

字节跳动, 新加坡国立大学, 上海交通大学, 香港科技大学（广州）

创建时间：

2025-12-13

原始信息汇总

CrispEdit-2M 数据集概述

基本信息

数据集名称: CrispEdit-2M
发布者/作者: WeiChow
许可证: CC BY 4.0
语言: 英文 (en)
数据规模: 1M < n < 10M
库标识: datasets

来源与介绍

CrispEdit-2M 是在论文 EditMGT: Unleashing the Potential of Masked Generative Transformer in Image Editing 中引入的综合数据集。该数据集专门为训练和评估图像编辑模型而设计，涵盖了7种不同的图像编辑任务类别，为研究人员开发先进的图像处理技术提供了丰富的资源。

任务与内容

任务类别: 图像到图像 (image-to-image)
核心标签: 图像 (image)、图像编辑 (image-editing)、指令微调 (instruction-tuning)、指令引导 (instruction-guided)、多模态 (multimodal)
数据总量: 超过220万样本
任务细分: 包含7种图像编辑任务，具体如下：

文件名前缀 (Parquet中类型)	任务名称	Parquet文件数量	样本总数
color	颜色改变 (Color Alteration)	1,984	496K
motion	运动改变 (Motion Change)	128	32K
style	风格改变 (Style Change)	1,600	400K
replace	物体替换 (Object Replacement)	1,566	391K
remove	物体移除 (Object Removal)	1,388	347K
add	物体添加 (Object Addition)	1,213	303K
background	背景改变 (Background Change)	1,091	272K
总计			2,241K

数据格式与访问

数据格式: 数据以 Parquet 文件格式存储。
文件结构: 每个 Parquet 文件包含 256 个数据项，结构高效，便于大规模图像编辑研究。
访问方式: 可通过 Hugging Face 仓库 (https://huggingface.co/datasets/WeiChow/CrispEdit-2M) 访问完整数据集。数据集按任务类别组织，便于导航和使用。
加载代码示例: python from datasets import load_dataset dataset = load_dataset("WeiChow/CrispEdit-2M")

相关资源

数据集主页: https://huggingface.co/datasets/WeiChow/CrispEdit-2M
模型检查点: https://huggingface.co/WeiChow/EditMGT
GitHub 仓库: https://github.com/weichow23/editmgt/tree/main
项目主页: https://weichow23.github.io/editmgt/

搜集汇总

数据集介绍

构建方式

在图像编辑领域，高质量数据集的构建对于模型性能至关重要。CrispEdit-2M的构建采用了系统化的多阶段流程，首先从LAION-Aesthetics、Unsplash Lite和JourneyDB等公开资源中筛选出短边分辨率不低于1024像素的高质量图像，并利用美学评分与语言模型进行双重过滤以确保视觉品质。随后，通过两阶段指令生成框架，先由视觉语言模型生成详细图像描述，再借助大型语言模型将其转化为涵盖七类编辑任务（如添加、替换、风格迁移等）的多样化编辑指令。最终，结合FLUX.1 Kontext和Step1X-Edit等先进编辑模型生成编辑后的图像，并经过严格的CLIP对齐与视觉相似度验证，确保数据对的语义一致性与非目标区域保真度，从而形成了包含200万样本的高分辨率编辑数据集。

特点

CrispEdit-2M在图像编辑数据集中展现出鲜明的技术特色。其核心优势在于全样本均达到高分辨率标准，短边尺寸均不低于1024像素，且长边集中分布于1280至1665像素区间，为模型训练提供了丰富的细节信息。数据集覆盖七种编辑类别，包括添加、替换、移除、颜色调整、背景变换、风格转换与运动修改，类别分布均衡且覆盖全面，能够支撑模型学习多样化的编辑操作。此外，数据生成过程引入了自适应过滤与后处理质量验证机制，通过CLIP语义对齐与视觉相似度度量，有效保障了编辑指令的准确执行与非目标区域的完整性，从而在规模与质量之间取得了良好平衡。

使用方法

CrispEdit-2M主要用于训练基于掩码生成变换器的图像编辑模型EditMGT。在实际应用中，数据集以图像-指令-编辑图像三元组的形式输入模型，通过注意力注入机制将原始图像作为条件信号融入生成过程，使预训练的文本到图像MGT模型能够在不增加参数的情况下适应编辑任务。训练过程分为三个阶段：首先使用Gemma2-2B-IT作为文本编码器在百万级图文数据上进行基础训练；随后在完整的400万编辑数据上进行全参数微调；最后采用高质量子集进行偏好对齐优化。在推理阶段，模型依托数据集中学习到的多层级注意力整合与区域保持采样技术，实现编辑区域的精准定位与非目标区域的显式保留，从而达成高效且可控的图像编辑。

背景与挑战

背景概述

CrispEdit-2M数据集由字节跳动、新加坡国立大学、上海交通大学及香港科技大学（广州）等机构的研究团队于2025年构建，旨在支持基于掩码生成变换器（MGT）的图像编辑模型EditMGT的训练。该数据集针对扩散模型在图像编辑中存在的非目标区域意外修改问题，通过MGT的局部解码范式实现精确的区域控制。CrispEdit-2M包含200万高分辨率（短边≥1024像素）样本，覆盖添加、替换、移除、颜色调整、背景变换、风格迁移和运动修改等七类编辑任务，为图像编辑领域提供了规模与质量并重的训练资源，推动了高效、精准编辑技术的发展。

当前挑战

CrispEdit-2M面临的挑战主要集中于两个方面：在领域问题层面，需解决图像编辑中编辑泄漏的难题，即确保编辑指令仅作用于目标区域，避免对非相关区域产生意外修改，这对模型的局部化与保真能力提出了极高要求。在构建过程中，挑战包括大规模高质量编辑样本的稀缺性，需通过开源模型生成并配合严格过滤流程保证数据质量；同时，跨七类编辑任务的数据标注需平衡多样性与一致性，且高分辨率图像的采集与处理对计算和存储资源构成显著压力。

常用场景

经典使用场景

在生成式人工智能驱动的图像编辑领域，CrispEdit-2M数据集主要服务于基于掩码生成变换器（MGT）的编辑模型训练与评估。该数据集以其高分辨率（短边≥1024像素）和覆盖七大类别的结构化编辑样本，为模型提供了学习精确局部编辑与全局语义保持所需的丰富监督信号。其经典使用场景在于支撑如EditMGT等框架的训练，使模型能够通过注意力机制自适应定位编辑相关区域，并利用区域保持采样技术，在遵循文本指令修改目标区域的同时，显式地保持图像中非相关区域的完整性，从而有效解决扩散模型中常见的编辑泄漏问题。

衍生相关工作

CrispEdit-2M作为高质量编辑数据集，其构建方法论与数据规模启发了后续一系列相关工作。其直接衍生的核心工作是EditMGT框架，该框架首次系统地将MGT应用于图像编辑，并提出了多层注意力整合与区域保持采样等关键技术。此外，数据集的构建流程——结合开源模型生成、严格过滤与质量验证——也为后续大规模编辑数据合成提供了可借鉴的范式。在更广泛的范畴内，该数据集与EditMGT共同推动了基于非扩散模型（特别是MGT和自回归模型）的编辑研究浪潮，促使社区探索超越扩散模型全局去噪局限的替代架构，以实现更高效、更可控的图像编辑。

数据集最近研究