GPT-Image-Edit-1M
收藏Hugging Face2026-05-04 更新2026-05-05 收录
下载链接:
https://huggingface.co/datasets/meimeirun/GPT-Image-Edit-1M
下载链接
链接失效反馈官方服务:
资源简介:
GPT-Image-Edit-1M 是一个百万规模的指令引导图像编辑数据集,包含 1,553,575 个三元组,其中 1,553,561 个通过了自动化质量控制流程的评分。每个样本经过两次独立评分(分别由 Claude Sonnet 4.6 和 Claude Opus 4.6 完成),并分配了策略决策(保留/重新标记/丢弃)。数据集包含元数据、质量控制记录、200 个用于人工评估的案例子集以及完整的图像数据。数据来源包括 OmniEdit、HQ-Edit、UltraEdit 和 C3 复杂性组合指令。数据集采用 CC BY-NC-SA 4.0 许可,适用于学术和非商业研究,如训练开源图像编辑器、研究指令-输出对齐等。已知限制包括评委家族耦合、生成器受限分布等。
创建时间:
2026-05-03
原始信息汇总
GPT-Image-Edit-1M 数据集概述
基本概况
GPT-Image-Edit-1M 是一个百万规模、基于指令引导的图像编辑数据集,所有编辑输出均通过固定端点和固定质量设置的 GPT-Image-1 模型重新合成。数据集支持完全审计,提供了完整的质量控制记录。
| 关键指标 | 数值 |
|---|---|
| 上游清单池 | 1,553,575 三元组(输入图、指令、输出图) |
| QC评分池 | 1,553,561 三元组(14个因API失败而排除) |
| 最终保留(KEEP + RELABEL) | 约1,000,000 |
| 数据集许可证 | CC BY-NC-SA 4.0 |
数据来源构成
HQ-Edit(183,182 原始样本)
- 编辑任务:89,585 样本,使用 HQ-Edit 原始输入和指令,经 GPT-Image-1 重新编辑
- 生成任务:93,597 样本,输入由 GPT-Image-1 从 HQ-Edit 描述合成,指令保持原始
OmniEdit(1,270,385 原始样本)
涵盖添加(189,336)、属性修改(204,065)、环境(137,440)、移除(149,763)、风格(14,405)、交换/背景交换/对象交换(261,983)、复杂编辑 C3(313,393)等任务类别
UltraEdit(100,008 原始样本)
均匀分布在添加、颜色修改、全局修改、局部修改、替换、全局变换、局部变换、转向等8个类别,每类11,112样本
质量控制与审计机制
评分标准
- IF(指令忠实度):评分范围 [0,10]
- NC(自然度/非目标一致性):评分范围 [0,10]
- VQ(视觉质量):评分范围 [0,10]
- 总体评分:IF/NC/VQ 的几何平均值
双重独立评审
- 第一轮:Claude Sonnet 4.6 独立评分
- 第二轮:Claude Opus 4.6 独立评分,并包含裁决逻辑
- 两轮评分完整公开,供第三方审计评审一致性
策略标签
每条样本被分配为 KEEP(保留)、RELABEL(重新标注指令)或 DROP(丢弃),并提供每样本原因标签、新旧指令追踪和结构化失败标志
元数据格式
元数据采用 LLaVA 风格的对话格式,可直接用于 SFT 加载器。metadata/ 目录已过滤为保留(KEEP + RELABEL)样本集,RELABEL 样本的指令文本已替换为 QC 流水线生成的新指令。
json { "image": ["input/<id>.png", "output/<id>.png"], "conversations": [ {"from": "human", "value": "<image> <instruction text>"}, {"from": "gpt", "value": "<gen_image>"} ] }
仓库结构
- metadata/:QC过滤后的训练清单(KEEP + RELABEL),包含6个JSON文件
- qc/:完整池审计QC记录(1,553,561行),含字段模式说明和校验和
- human_eval_200/:200个人工评估候选用例,跨评分区间分层采样
- images/:完整图像数据,按来源分为HQ-Edit(约654GB)、OmniEdit(约3.5TB)、UltraEdit(约73GB)压缩包
人工评估候选子集
200个用例按总体评分分层采样:
| 评分区间 | 样本数 | 用途 |
|---|---|---|
| [0, 3) | 40 | 极低质量锚点 |
| [3, 5) | 40 | 低质量 |
| [5, 7) | 40 | 中间(策略边界) |
| [7, 9) | 40 | 高质量 |
| [9, 10] | 40 | 极高质量锚点 |
每条记录包含完整QC评分和空白的 human_* 字段(供后续人工标注填充)
预期用途
- 学术和非商业研究中训练开源图像编辑器
- 通过发布的QC记录研究指令-输出对齐和大规模失败模式
- 使用两位独立Claude评审的每样本决策基准测试自动化数据集策展策略
- 通过
human_eval_200候选子集审计Claude评审与人工评审的一致性
已知限制
- 评审家族耦合:两位QC评审均为Claude家族模型,共享模型族先验可能导致相关错误
- 生成器分布受限:所有编辑输出均为GPT-Image-1重新合成,超出其原生能力的编辑可能系统性缺失
- 缺乏人口统计学群体审计:继承原始语料库的人口统计学分布,未进行显式去偏
上游许可证
- OmniEdit:MIT
- HQ-Edit:CC BY-NC 4.0
- UltraEdit:CC BY 4.0
- Complex-Edit:CC BY-NC-SA 4.0
- 编辑输出生成器:OpenAI GPT-Image-1(使用OpenAI API服务条款)
搜集汇总
数据集介绍

构建方式
GPT-Image-Edit-1M是一个百万级指令引导图像编辑数据集,其构建过程严谨而系统。该数据集基于OmniEdit、HQ-Edit、UltraEdit及C3复合指令等上游语料库中的1,553,575个三元组(输入图像、指令、输出图像)进行构建。每个编辑输出均通过固定端点的GPT-Image-1模型以统一质量设置重新合成,最终成功获取1,553,561个经自动质量控制流水线评分的样本。每个样本均接受两轮独立评估——首轮由Claude Sonnet 4.6,次轮由Claude Opus 4.6——并依据指令忠实度、自然度与视觉质量三项指标的综合几何平均分,赋予KEEP、RELABEL或DROP的策略决策标签,附有详细原因标签与新旧指令追踪痕迹。
特点
该数据集最显著的特点在于其百万量级的规模与全面的可审计性。全部质量控制记录均按样本公开发布,包含两轮独立评判的原始评分、决策依据及结构化失败标记,使第三方能够独立审核评判者一致性及下游过滤策略。数据集元数据采用LLaVA风格的对话格式,便于直接用于微调加载器;其中RELABEL样本的指令文本已替换为校准后的最终指令,确保了训练监督信号的准确性。此外,数据集还包含一个200例人类评估候选项子集,按质量分数分层采样,为未来的人机相关性研究提供了标准化基准。
使用方法
研究者可通过HuggingFace Hub按需下载数据:仅需约1GB即可获取人类评估子集、元数据模式及质量控制记录模式用于观察评估;如需完整训练数据,则可分别下载约654GB的HQ-Edit子集、3.5TB的OmniEdit子集和73GB的UltraEdit子集,通过拼接tar.gz分片文件后解压。质量控制记录以ZST压缩的JSONL格式提供,可使用zstd解压后以jq工具浏览。该数据集适用于训练开源图像编辑器、研究指令与输出对齐及失败模式、基准测试自动化数据集筛选策略等学术与非商业研究场景,需遵守CC BY-NC-SA 4.0许可协议。
背景与挑战
背景概述
指令引导图像编辑是计算机视觉与自然语言处理交叉领域的重要研究方向,旨在根据自然语言描述对图像进行精确编辑。然而,现有数据集普遍存在规模有限、标注噪声高、编辑质量参差不齐等问题,严重制约了模型的泛化能力与实用性。GPT-Image-Edit-1M数据集由研究团队于2024年创建,整合了OmniEdit、HQ-Edit、UltraEdit及C3复杂指令等多个来源,利用OpenAI的GPT-Image-1模型对超过150万条三元组进行重新合成,并通过双轮独立自动化质量评估(Claude Sonnet 4.6与Opus 4.6)筛选出约100万条高质量样本。该数据集以可审计性为核心特色,完整公开了每条样本的两轮评分记录与策略决策,为指令引导图像编辑领域的模型训练、评估方法与数据治理研究提供了大规模、高透明的基准资源。
当前挑战
该数据集所面临的挑战集中在三大层面。首先,在领域问题层面,指令引导图像编辑需要同时确保指令忠实度、图像自然度与视觉质量三者间的平衡,而现有模型常在复杂指令下出现语义误解或非目标区域意外变更,缺乏系统性的质量保障机制。其次,在构建过程中,数据集面临多源数据的融合难题,包括不同来源的指令风格差异、标注标准不统一、以及原始编辑结果与期望输出之间的严重偏差。为解决这些问题,研究团队引入双轮独立自动评判系统,但评判模型本身的家族耦合性可能导致误差相关,且大规模数据生成依赖于单一生成器(GPT-Image-1),其固有能力的边界可能使部分编辑类型系统性欠代表性。此外,数据集中包含的拼贴性文本内容、无人口统计偏差审计等缺陷也构成了进一步研究与应用的限制。
常用场景
经典使用场景
在指令引导的图像编辑领域,GPT-Image-Edit-1M数据集最经典的使用场景是作为大规模、高质量的监督信号源,用于训练和微调开源图像编辑模型。该数据集包含约100万组经过严格质量控制的三元组(输入图像、编辑指令、输出图像),其编辑输出由OpenAI的GPT-Image-1在固定端点和质量设置下统一重新合成,确保了数据的一致性和可审计性。研究者可直接利用其以LLaVA对话格式组织的元数据文件,无缝接入标准的监督微调(SFT)流程,从而训练出能够根据自然语言指令精确执行添加、修改、删除、风格转换等多种编辑操作的模型。此外,该数据集内置的两轮独立自动质量评估记录(分别来自Claude Sonnet 4.6和Claude Opus 4.6)以及生成的策略标签(保留/重新标注/丢弃),为研究者提供了筛选高质量子集、探索不同训练数据配比效果的灵活空间。
实际应用
GPT-Image-Edit-1M数据集在实际应用中展现出广泛的实用价值,尤其在需要精准理解自然语言指令并执行复杂图像编辑操作的场景中表现突出。在内容创作领域,该数据集训练的模型可辅助设计师、摄影师和社交媒体运营者高效完成图像元素的添加与移除、颜色调整、背景替换、风格迁移等任务,显著提升创意生产效率。在电子商务平台,模型能够根据商品描述自动生成符合要求的展示图,例如为产品更换背景或调整局部细节,优化用户体验并降低人工修图成本。在增强现实(AR)和虚拟现实(VR)场景中,该数据集支撑的模型可为用户提供基于语音或文本指令的实时场景编辑能力,如调整虚拟环境的色调、移除干扰物体。此外,该数据集中包含的200例人类评估候选子集为部署前的模型效果验证提供了标准化的评估框架,有助于工业界在实际应用前评估模型在低、中、高质量区间内的表现,确保最终产品输出的可靠性和自然度。
衍生相关工作
GPT-Image-Edit-1M数据集的发布催生了一系列具有深远影响的衍生研究工作。首先,围绕其双裁判质量审核机制,研究者得以深入开展自动化数据集策展策略的对比研究,例如探索不同质量评分函数(指令忠实度IF、自然度NC、视觉质量VQ)的组合权重对最终模型性能的影响,以及独立裁判间一致性分析与整合方法。其次,该数据集提供的百万人规模三元组与完整的质量控制记录,为训练更鲁棒的图像编辑模型奠定了基础,激发了对指令-输出对齐的细粒度故障模式研究,比如系统性地分析模型在特定编辑类型(如复杂组合编辑C3)上的失败案例并据此设计针对性改进方案。此外,该数据集中包含的200例分层抽样的人类评估候选子集,为研究自动评估裁判与人类判断之间的相关性提供了稀缺的对照数据,推动了更可靠、更贴近人类感知的自动评估指标的发展。最后,该数据集的开源许可(CC BY-NC-SA 4.0)及其对源语料库归属的明确要求,也促进了学术界在尊重上游知识产权的前提下,构建更大规模、更高质量派生数据集的协作生态。
以上内容由遇见数据集搜集并总结生成



