five

GPT-IMAGE-EDIT-1.5M

收藏
arXiv2025-07-29 更新2025-07-30 收录
下载链接:
https://huggingface.co/datasets/UCSC-VLAA/GPT-Image-Edit-1.5M
下载链接
链接失效反馈
官方服务:
资源简介:
GPT-IMAGE-EDIT-1.5M是一个大规模的图像编辑语料库,包含超过150万高质量的三元组{指令,源图像,编辑图像}。该数据集由加利福尼亚大学圣克鲁兹分校、爱丁堡大学和Adobe等机构的研究人员创建,旨在推进开源图像编辑研究。数据集的内容丰富多样,数据量庞大,包含了从OmniEdit、HQEdit和UltraEdit三个流行图像编辑数据集中统一和精炼而来的数据。创建过程中,研究人员使用了GPT-4o的强大功能来再生输出图像,提高视觉质量和指令对齐,并选择性地重写提示以改善语义清晰度。该数据集的应用领域主要是指导图像编辑,旨在解决现有开源图像编辑模型在语义理解和执行质量方面与闭源模型之间的差距。

GPT-IMAGE-EDIT-1.5M is a large-scale image editing corpus containing over 1.5 million high-quality triplets {instruction, source image, edited image}. Developed by researchers from institutions including the University of California, Santa Cruz, the University of Edinburgh, and Adobe, this dataset is designed to advance open-source image editing research. Featuring rich and diverse content and a massive scale, it consolidates and refines data from three popular image editing datasets: OmniEdit, HQEdit, and UltraEdit. During its construction, researchers utilized the capabilities of GPT-4o to regenerate output images, improving visual quality and instruction alignment, while optionally rewriting prompts to enhance semantic clarity. The primary application of this dataset lies in guiding image editing, with the goal of bridging the gap between existing open-source image editing models and closed-source models in terms of semantic understanding and execution quality.
提供机构:
加利福尼亚大学圣克鲁兹分校, 爱丁堡大学, Adobe
创建时间:
2025-07-29
原始信息汇总

GPT-Image-Edit-1.5M 数据集概述

基本信息

  • 许可证: CC-BY-4.0
  • 语言: 英语 (en)
  • 数据集名称: GPT-Image-Edit-1.5M
  • 规模: 1M < n < 10M
  • 任务类别: 图像到图像 (image-to-image)
  • 标签: 图像 (image), 图像编辑 (image-editing)

数据集描述

GPT-Image-Edit-1.5M 是一个基于 HQ-Edit、UltraEdit、OmniEdit 和 Complex-Edit 构建的综合图像编辑数据集,所有输出图像均使用 GPT-Image-1 重新生成。

数据集统计摘要

完整数据集概览

数据集来源 总样本数 指令类型 描述
HQ-Edit 183,182 原始 具有高质量输入和输出图像的完全合成图像编辑数据集
UltraEdit 100,008 原始 包含9种编辑任务的综合图像编辑数据集
OmniEdit 1,270,385 原始/重写/复杂 具有原始、重写和 Complex-Edit 风格指令的大规模多任务数据集
总计 1,553,575 原始/重写/复杂 使用 GPT-Image-1 重新编辑输出图像的完整统一数据集

指令复杂度分布

  • 原始指令: 1,140,182 样本,基本到中等复杂度
  • 重写指令: 100,000 样本,增强复杂度
  • 复杂指令: 313,393 样本,高级复杂度 ($C_3$ 级别)

详细分类

HQ-Edit 数据集 (183,182 样本)

子文件夹 样本数 输入来源 指令来源 输出来源
edit 89,585 HQ-Edit 原始输入图像 HQ-Edit 原始重写指令 GPT 编辑输出图像
generate 93,597 原始标题生成的输入图像 HQ-Edit 原始重写指令 GPT 编辑输出图像

OmniEdit 数据集 (1,270,385 样本)

任务 样本数 重写指令
addition 189,336 14,385
attribute_modification 204,065 14,509
env 137,440 14,509
removal 149,763 13,497
style 14,405 14,405
swap (object + background) 261,983 28,695
complex-edit 313,393

UltraEdit 数据集 (100,008 样本)

任务 样本数
add 11,112
change_color 11,112
change_global 11,112
change_local 11,112
others 11,112
replace 11,112
transform_global 11,112
transform_local 11,112
turn 11,112

目录结构

gpt-edit/ ├── hqedit/ │ ├── edit/ │ │ ├── input/ │ │ ├── output/ │ │ └── metadata/ │ │ └── hqedit_edit.json │ └── generate/ │ ├── input/ │ ├── output/ │ └── metadata/ │ └── hqedit_generate.json ├── omniedit/ │ ├── addition/ │ │ ├── input/ │ │ ├── output/ │ │ └── metadata/ │ │ └── omniedit_addition.json │ ├── attribute_modification/ │ ├── background_swap/ │ ├── complex-edit/ │ ├── env/ │ ├── object_swap/ │ ├── removal/ │ ├── style/ │ └── swap/ └── ultraedit/ ├── add/ │ ├── input/ │ ├── output/ │ └── metadata/ │ └── ultraedit_add.json ├── change_color/ ├── change_global/ ├── change_local/ ├── others/ ├── replace/ ├── transform_global/ ├── transform_local/ └── turn/

元数据格式

所有元数据文件遵循统一的 JSON 结构,包含以下字段:

  • id: 唯一标识符
  • dataset_source: 数据集来源
  • task: 任务类别
  • input: 输入图像路径
  • output: 输出图像路径
  • instruction: 编辑指令文本
  • instruction_type: 指令类型
  • input_description: 输入图像描述

OmniEdit 特有字段

  • instruction_original: 原始指令 (用于重写情况)

引用

bibtex @misc{wang2025gptimageedit15mmillionscalegptgeneratedimage, title={GPT-IMAGE-EDIT-1.5M: A Million-Scale, GPT-Generated Image Dataset}, author={Yuhan Wang and Siwei Yang and Bingchen Zhao and Letian Zhang and Qing Liu and Yuyin Zhou and Cihang Xie}, year={2025}, eprint={2507.21033}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2507.21033}, }

搜集汇总
数据集介绍
main_image_url
构建方式
GPT-IMAGE-EDIT-1.5M数据集的构建采用了系统化、多阶段的策略,旨在提升开源图像编辑研究的质量与规模。研究团队通过整合并优化三个主流图像编辑数据集——OmniEdit、HQ-Edit和UltraEdit,利用GPT-4o的强大能力重新生成输出图像以增强视觉质量与指令对齐。具体步骤包括:1)基于现有图像-指令对重新生成输出图像;2)选择性重写指令以提升语义清晰度;3)对部分输入图像进行全对合成以优化数据一致性。数据生成过程中采用严格的几何对齐与质量过滤机制,确保图像分辨率为1024×1024或适配三种固定宽高比(1:1、3:2、2:3),并通过填充-裁剪策略避免内容失真。
特点
该数据集的核心特征体现在其规模性与质量控制的平衡上。作为包含150万组{指令、源图像、编辑后图像}三元组的大规模语料库,其独特优势在于:1)通过GPT-4o生成的复杂编辑指令覆盖11种编辑类型(如背景替换、材质修改、主体增减等),支持多原子指令组合的复合编辑场景;2)采用多模态评估指标(GEdit-EN、ImgEdit-Full等)验证的数据质量,在指令跟随度(IF)、身份保持度(IP)和感知质量(PQ)三个维度均达到开源领域最优水平;3)通过标准化处理流程统一了原始数据集的异构格式,同时保留C3级指令复杂度以平衡真实性与编辑难度。
使用方法
该数据集主要服务于指令引导图像编辑模型的训练与评估。使用流程可分为三个层面:1)基础应用层面,研究者可直接加载HuggingFace平台发布的标准化数据,通过微调FluxKontext等流匹配架构模型实现编辑能力迁移;2)进阶研究层面,建议结合Qwen-VL-7b等多模态编码器增强语义对齐,并利用数据集内部分割的Complex-Edit子集验证模型组合推理能力;3)评估验证层面,配套的四大基准测试(GEdit-EN-full、ImgEdit-Full等)提供标准化度量体系,支持通过定量指标(如7.24@GEdit-EN)与定性案例(如图3-6所示)多维度验证模型性能。数据集的模块化设计允许按需选择原始数据、GPT重写数据或全合成数据子集。
背景与挑战
背景概述
GPT-IMAGE-EDIT-1.5M是由加州大学圣克鲁兹分校、爱丁堡大学和Adobe的研究团队于2024年推出的百万规模指令引导图像编辑数据集。该数据集旨在解决当前开源研究中高质量多模态训练数据匮乏的问题,通过整合并优化OmniEdit、HQEdit和UltraEdit三大主流图像编辑数据集,构建了包含150万组{指令、源图像、编辑图像}的高质量三元组。其核心研究问题聚焦于如何利用GPT-4o等前沿模型的生成能力,突破专有模型与开源社区之间的技术壁垒,推动可控图像编辑领域的发展。实验表明,基于该数据集微调的模型在GEdit-EN等基准测试中显著超越现有开源方法,性能接近领先的专有系统。
当前挑战
该数据集面临双重挑战:在领域问题层面,需解决复杂指令的语义对齐与身份保持难题,现有方法常因创造性解释导致编辑结果偏离用户意图;在构建过程中,需克服多源数据集异构性带来的技术障碍,包括不同分辨率图像的几何对齐、提示词重写的语义一致性控制,以及生成图像的真实性校验。特别值得注意的是,数据质量与指令复杂度之间的平衡尤为关键——过度复杂的指令可能损害图像真实感,而简单指令则限制模型能力边界。此外,专有模型API的调用成本与生成稳定性也对大规模数据生产构成实际约束。
常用场景
经典使用场景
在生成式人工智能领域,GPT-IMAGE-EDIT-1.5M数据集为指令引导的图像编辑任务提供了丰富的训练资源。该数据集通过整合和优化OmniEdit、HQ-Edit和UltraEdit三个流行数据集,生成了超过150万条高质量的{指令、源图像、编辑后图像}三元组。其经典使用场景包括训练和评估开源图像编辑模型,如FluxKontext,以提升模型在复杂指令理解和图像生成质量方面的表现。
解决学术问题
GPT-IMAGE-EDIT-1.5M数据集解决了开源研究中高质量训练数据匮乏的问题。通过利用GPT-4o的能力重新生成和优化图像与指令,该数据集显著提升了指令与图像之间的对齐质量,同时改善了视觉保真度。实验表明,基于该数据集训练的模型在GEdit-EN、ImgEdit-Full和Complex-Edit等基准测试中表现优异,缩小了开源模型与专有模型之间的性能差距。
衍生相关工作
GPT-IMAGE-EDIT-1.5M数据集衍生了一系列相关研究工作,如FluxKontext模型的优化和Qwen-VL-7b嵌入的应用。这些工作进一步推动了指令引导图像编辑技术的发展,并在多个基准测试中取得了领先的性能。此外,该数据集的发布也激发了更多关于多模态生成模型和数据蒸馏方法的研究。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作