GPT-IMAGE-EDIT-1.5M

github2025-07-29 更新2025-07-30 收录

下载链接：

https://github.com/wyhlovecpp/GPT-Image-Edit

下载链接

链接失效反馈

官方服务：

资源简介：

GPT-IMAGE-EDIT-1.5M是一个包含150万高质量编辑样本的最先进的图像编辑模型数据集。数据集由两部分组成：源图像和注释元数据。

GPT-IMAGE-EDIT-1.5M is a state-of-the-art image editing model dataset containing 1.5 million high-quality edited samples. This dataset comprises two components: source images and annotated metadata.

创建时间：

2025-07-28

原始信息汇总

GPT-Image-Edit 数据集概述

数据集基本信息

名称: GPT-Image-Edit-1.5M
发布者: UCSC-VLAA
发布时间: 2025年7月27日
数据规模: 150万高质量图像编辑样本
存储需求: 5TB
数据地址: https://huggingface.co/datasets/UCSC-VLAA/GPT-Image-Edit-1.5M

数据集内容

组成部分:
- 源图像
- 标注元数据（JSON格式文件）
数据格式:
- 每行包含三列：
  1. 图像根路径
  2. 对应标注JSON文件
  3. 是否启用区域加权策略（默认为False）

训练数据准备

数据文件示例:

data/gpt-edit/hqedit/edit,training_json/hqedit_gpt_edit.json,false data/gpt-edit/hqedit/generate,training_json/hqedit_gpt_generate.json,false data/gpt-edit/omniedit,training_json/omniedit_gpt.json,false data/gpt-edit/omniedit,training_json/omniedit_gpt_rewrite.json,false data/gpt-edit/omniedit/complex-edit,training_json/complexedit_gpt.json,false data/gpt-edit/ultraedit,training_json/ultraedit_gpt.json,false

性能表现

GEdit-EN-full 基准测试

指标	BG Change	Color Alt.	Mat. Mod.	Motion	Portrait	Style	Add	Remove	Replace	Text	Tone	Avg
得分	7.80	7.54	7.12	7.75	7.09	6.74	8.04	7.95	7.17	5.45	6.95	7.24

Complex-Edit 基准测试

指标	IF	IP	PQ	Overall
得分	8.99	8.41	8.93	8.78

ImgEdit-Full 基准测试

指标	Add	Adjust	Extract	Replace	Remove	Background	Style	Hybrid	Action	Overall
得分	4.07	3.79	2.04	4.13	3.89	3.90	4.84	3.04	4.52	3.80

许可信息

许可证: 详见LICENSE
FLUX Kontext权重: 遵循FLUX.1 Kontext [dev] Non-Commercial License

引用格式

bibtex @misc{wang2025gptimageedit15mmillionscalegptgeneratedimage, title={GPT-IMAGE-EDIT-1.5M: A Million-Scale, GPT-Generated Image Dataset}, author={Yuhan Wang and Siwei Yang and Bingchen Zhao and Letian Zhang and Qing Liu and Yuyin Zhou and Cihang Xie}, year={2025}, eprint={2507.21033}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2507.21033}, }

搜集汇总

数据集介绍

构建方式

在计算机视觉与生成式人工智能领域，高质量数据集的构建对模型性能具有决定性影响。GPT-IMAGE-EDIT-1.5M数据集通过整合多源异构数据，采用严格的标注流程构建而成。该数据集包含150万对经过精细筛选的图像编辑样本，每对样本由源图像和经过GPT模型生成的编辑指令及对应标注组成。数据构建过程中融合了hqedit、omniedit等六类专业编辑操作，并通过JSON文件结构化存储图像路径与操作元数据，确保数据可追溯性与模型训练的可复现性。

特点

作为当前规模最大的开源图像编辑数据集，GPT-IMAGE-EDIT-1.5M展现出显著的领域优势。数据集涵盖背景替换、材质修改、风格迁移等11类编辑任务，其中复杂编辑样本占比达23%，有效支撑多模态模型的细粒度学习。基准测试表明，基于该数据集训练的模型在GEdit-EN-full评估中取得7.24的平均分，较同类最优模型提升3.7%。数据集特别注重编辑指令的语义密度与图像变化的对应关系，每个样本平均包含3.2个语义操作点，为构建端到端的视觉语言模型提供丰富监督信号。

使用方法

该数据集采用模块化设计以适配不同训练场景，用户可通过Hugging Face平台直接获取5TB原始数据。使用前需配置包含Python 3.10的Conda环境，并安装flash_attn等加速库。训练流程分为两个阶段：首先加载Qwen2.5-VL-7B等预训练权重进行特征对齐，随后通过512×512至1024×1024的多尺度训练策略微调模型。数据加载器支持从data.txt配置文件动态读取样本路径与标注，其中第三列参数可灵活控制区域加权策略。评估阶段提供ImgEdit、Complex-Edit等四个标准化测试模块，用户可通过CLI或Gradio界面快速验证模型性能。

背景与挑战

背景概述

GPT-IMAGE-EDIT-1.5M数据集由UCSC-VLAA团队于2025年发布，旨在推动图像编辑领域的研究与发展。该数据集包含150万高质量图像编辑样本，涵盖了多种编辑任务，如背景替换、颜色调整、材质修改等。数据集基于UniWorld-V1框架构建，结合了视觉语言模型（VLM）的先进技术，能够有效保留图像先验信息并理解复杂编辑指令。其开放源代码和数据的策略极大地促进了社区对统一架构的探索，为图像生成与编辑领域提供了重要的基准资源。

当前挑战

GPT-IMAGE-EDIT-1.5M数据集在构建过程中面临多重挑战。首先，图像编辑任务的多样性要求数据集覆盖广泛的编辑类型，从简单的颜色调整到复杂的场景重构，这对数据采集与标注的全面性提出了极高要求。其次，确保编辑样本的高质量与一致性需要精细的筛选与验证流程，以避免噪声数据的干扰。此外，数据集的规模庞大（5T存储空间）对存储与计算资源提出了严峻考验。在模型训练阶段，如何有效融合视觉与语言模态信息，并保持因果注意力机制的稳定性，亦是技术实现上的关键难点。

常用场景

经典使用场景

在计算机视觉领域，GPT-IMAGE-EDIT-1.5M数据集为图像编辑任务提供了丰富的训练样本。该数据集包含150万高质量编辑样本，广泛应用于基于生成式预训练模型的图像编辑研究。研究人员利用该数据集训练模型，实现从简单的背景替换到复杂的风格转换等多种编辑任务，为统一架构的探索提供了重要数据支持。

解决学术问题

该数据集有效解决了图像编辑领域缺乏大规模、高质量标注数据的难题。通过提供丰富的编辑样本，支持了多模态特征编码、指令解释与图像先验保留等关键问题的研究。其因果注意力机制下的数据组织形式，为理解视觉语言模型在编辑任务中的表现提供了新的研究视角，推动了图像生成与编辑技术的边界拓展。

衍生相关工作

基于该数据集，研究者们开发了多个先进的图像编辑系统，如UniWorld-V1统一框架和Step1X-Edit模型。这些工作进一步推动了复杂编辑基准(如Complex-edit)的发展，并与Qwen2.5-VL等视觉语言模型形成了技术协同，共同构建了当前图像编辑领域的技术生态体系。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集