OpenGPT-4o-Image

github2025-09-29 更新2025-09-30 收录

下载链接：

https://github.com/NROwind/OpenGPT-4o-Image

下载链接

链接失效反馈

官方服务：

资源简介：

OpenGPT-4o-Image是一个大规模数据集，采用结合分层任务分类和自动数据生成的新方法构建。该数据集包含8万个高质量的指令-图像对，涵盖11个主要领域和51个子任务，专门用于文本到图像生成和图像编辑任务。数据集分为文本到图像生成（约4万样本）和图像编辑（约4万样本）两部分，通过结构化资源池和GPT-4o自动生成，具有受控的多样性。

OpenGPT-4o-Image is a large-scale dataset constructed using a novel approach that combines hierarchical task classification and automatic data generation. This dataset contains 80,000 high-quality instruction-image pairs, covering 11 major domains and 51 subtasks, and is specifically designed for text-to-image generation and image editing tasks. The dataset is divided into two parts: text-to-image generation (approximately 40,000 samples) and image editing (approximately 40,000 samples). It is automatically generated via structured resource pools and GPT-4o, featuring controlled diversity.

创建时间：

2025-09-29

原始信息汇总

OpenGPT-4o-Image 数据集概述

数据集简介

OpenGPT-4o-Image 是一个大规模数据集，采用结合层次化任务分类法与自动化数据生成的新方法构建。该分类法不仅包含文本渲染和风格控制等基础能力，还引入了高度实用且具有挑战性的类别，如用于化学图示的科学图像和需要同时执行多个操作的复杂指令编辑。

数据集规模

数据类型	样本数量
文本到图像生成	~40k
图像编辑	~40k
总计	~80k

核心特征

通过利用结构化资源池和GPT-4o的自动化流程生成
包含80k高质量指令-图像对
涵盖11个主要领域和51个子任务
具有受控的多样性

数据集结构

OpenGPT-4o-Image ├── gen/ # 生成任务的图像 ├── editing/ # 编辑任务的输入/输出图像 ├── gen.json # 生成任务的标注 └── editing.json # 编辑任务的标注

数据格式

文本到图像生成 (gen.json)

input_prompt: 用于图像生成的文本提示
output_image: 生成图像的相对路径

图像编辑 (editing.json)

input_prompt: 描述所需编辑的指令
input_image: 待编辑源图像的相对路径列表
output_image: 编辑结果图像的相对路径

获取方式

数据集可通过 Hugging Face 仓库下载：https://huggingface.co/datasets/WINDop/OpenGPT-4o-Image

搜集汇总

数据集介绍

构建方式

在计算机视觉与生成式人工智能蓬勃发展的背景下，OpenGPT-4o-Image数据集采用层次化任务分类与自动化生成相结合的前沿方法构建。通过设计涵盖文本渲染、风格控制乃至科学图像绘制等11个主要领域与51项子任务的精细分类体系，并利用结构化资源池与GPT-4o驱动的自动化流程，生成了约八万条高质量的指令-图像配对数据，确保了数据多样性与质量的可控性。

使用方法

为便于研究者高效利用该数据集，其使用流程设计得清晰而便捷。用户需从Hugging Face平台下载分卷压缩的数据文件，通过终端命令合并并解压生成与编辑两大任务的数据。解压后的目录结构明确区分生成任务与编辑任务的图像及标注文件，其中JSON格式的标注文件详细记录了每对数据的提示文本、输入图像路径与输出图像路径，支持直接加载至主流深度学习框架进行模型训练与评估。

背景与挑战

背景概述

随着生成式人工智能技术的迅猛发展，多模态模型在图像生成与编辑领域的应用日益广泛。OpenGPT-4o-Image数据集于2024年由WINDop研究团队构建，旨在通过层次化任务分类与自动化数据生成方法，系统性地解决文本到图像生成及图像编辑任务中的复杂需求。该数据集涵盖11个主要领域和51个子任务，包含约8万条高质量指令-图像对，显著推动了可控图像生成与智能编辑技术的研究进程，为多模态人工智能的发展提供了重要支撑。

当前挑战

在图像生成与编辑领域，模型需精准理解复杂指令并生成符合语义的视觉内容，尤其在科学图像合成与多操作同步编辑等场景中面临严峻挑战。数据集构建过程中，研究团队需克服自动化流程中指令多样性与图像质量控制的平衡问题，同时确保资源池的结构化设计能够覆盖广泛的实际应用场景，这些因素共同构成了数据集开发的核心难点。

常用场景

经典使用场景

在计算机视觉与生成式人工智能领域，OpenGPT-4o-Image数据集为文本到图像生成和图像编辑任务提供了标准化评估基准。该数据集通过分层任务分类法覆盖了文本渲染、风格控制、科学图像生成等11个主要领域，其经典使用场景包括训练和验证多模态大模型在复杂指令下的图像合成能力，以及评估模型在保持语义一致性与视觉质量方面的表现。

解决学术问题

该数据集有效解决了生成式模型中指令遵循精度不足与多任务泛化能力弱的核心学术问题。通过引入科学图像生成和复杂指令编辑等挑战性类别，它为研究多模态语义对齐、跨域知识迁移提供了结构化数据支撑，显著推进了可控图像生成技术的理论边界与方法创新。

实际应用

在实际应用层面，该数据集支撑了智能设计工具、教育可视化系统及工业原型生成等场景。例如在化学教育中可自动生成分子结构示意图，在广告创意领域实现多元素融合的视觉设计，其高质量标注数据为产业级图像合成系统的可靠性提供了关键保障。

数据集最近研究