GPT-IMAGE-EDIT-1.5M
收藏GPT-Image-Edit-1.5M 数据集概述
基本信息
- 许可证: CC-BY-4.0
- 语言: 英语 (en)
- 数据集名称: GPT-Image-Edit-1.5M
- 规模: 1M < n < 10M
- 任务类别: 图像到图像 (image-to-image)
- 标签: 图像 (image), 图像编辑 (image-editing)
数据集描述
GPT-Image-Edit-1.5M 是一个基于 HQ-Edit、UltraEdit、OmniEdit 和 Complex-Edit 构建的综合图像编辑数据集,所有输出图像均使用 GPT-Image-1 重新生成。
数据集统计摘要
完整数据集概览
| 数据集来源 | 总样本数 | 指令类型 | 描述 |
|---|---|---|---|
| HQ-Edit | 183,182 | 原始 | 具有高质量输入和输出图像的完全合成图像编辑数据集 |
| UltraEdit | 100,008 | 原始 | 包含9种编辑任务的综合图像编辑数据集 |
| OmniEdit | 1,270,385 | 原始/重写/复杂 | 具有原始、重写和 Complex-Edit 风格指令的大规模多任务数据集 |
| 总计 | 1,553,575 | 原始/重写/复杂 | 使用 GPT-Image-1 重新编辑输出图像的完整统一数据集 |
指令复杂度分布
- 原始指令: 1,140,182 样本,基本到中等复杂度
- 重写指令: 100,000 样本,增强复杂度
- 复杂指令: 313,393 样本,高级复杂度 ($C_3$ 级别)
详细分类
HQ-Edit 数据集 (183,182 样本)
| 子文件夹 | 样本数 | 输入来源 | 指令来源 | 输出来源 |
|---|---|---|---|---|
| edit | 89,585 | HQ-Edit 原始输入图像 | HQ-Edit 原始重写指令 | GPT 编辑输出图像 |
| generate | 93,597 | 原始标题生成的输入图像 | HQ-Edit 原始重写指令 | GPT 编辑输出图像 |
OmniEdit 数据集 (1,270,385 样本)
| 任务 | 样本数 | 重写指令 |
|---|---|---|
| addition | 189,336 | 14,385 |
| attribute_modification | 204,065 | 14,509 |
| env | 137,440 | 14,509 |
| removal | 149,763 | 13,497 |
| style | 14,405 | 14,405 |
| swap (object + background) | 261,983 | 28,695 |
| complex-edit | 313,393 | – |
UltraEdit 数据集 (100,008 样本)
| 任务 | 样本数 |
|---|---|
| add | 11,112 |
| change_color | 11,112 |
| change_global | 11,112 |
| change_local | 11,112 |
| others | 11,112 |
| replace | 11,112 |
| transform_global | 11,112 |
| transform_local | 11,112 |
| turn | 11,112 |
目录结构
gpt-edit/ ├── hqedit/ │ ├── edit/ │ │ ├── input/ │ │ ├── output/ │ │ └── metadata/ │ │ └── hqedit_edit.json │ └── generate/ │ ├── input/ │ ├── output/ │ └── metadata/ │ └── hqedit_generate.json ├── omniedit/ │ ├── addition/ │ │ ├── input/ │ │ ├── output/ │ │ └── metadata/ │ │ └── omniedit_addition.json │ ├── attribute_modification/ │ ├── background_swap/ │ ├── complex-edit/ │ ├── env/ │ ├── object_swap/ │ ├── removal/ │ ├── style/ │ └── swap/ └── ultraedit/ ├── add/ │ ├── input/ │ ├── output/ │ └── metadata/ │ └── ultraedit_add.json ├── change_color/ ├── change_global/ ├── change_local/ ├── others/ ├── replace/ ├── transform_global/ ├── transform_local/ └── turn/
元数据格式
所有元数据文件遵循统一的 JSON 结构,包含以下字段:
id: 唯一标识符dataset_source: 数据集来源task: 任务类别input: 输入图像路径output: 输出图像路径instruction: 编辑指令文本instruction_type: 指令类型input_description: 输入图像描述
OmniEdit 特有字段
instruction_original: 原始指令 (用于重写情况)
引用
bibtex @misc{wang2025gptimageedit15mmillionscalegptgeneratedimage, title={GPT-IMAGE-EDIT-1.5M: A Million-Scale, GPT-Generated Image Dataset}, author={Yuhan Wang and Siwei Yang and Bingchen Zhao and Letian Zhang and Qing Liu and Yuyin Zhou and Cihang Xie}, year={2025}, eprint={2507.21033}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2507.21033}, }




