OpenGPT-4o-Image

Name: OpenGPT-4o-Image
Creator: 中国科学技术大学, 北京大学, 南京大学, 中国科学院自动化研究所, 清华大学
Published: 2025-09-29 23:11:09
License: 暂无描述

arXiv2025-09-29 更新2025-10-01 收录

下载链接：

https://huggingface.co/datasets/WINDop/OpenGPT-4o-Image

下载链接

链接失效反馈

官方服务：

资源简介：

OpenGPT-4o-Image是一个大规模数据集，旨在支持图像生成和编辑领域的研究。该数据集通过结合层次任务分类和自动数据生成方法构建，涵盖了11个主要领域和51个子任务，共包含80k个高质量指令-图像对。数据集的组织围绕一个层次分类法，系统地解决了现有数据集在复杂场景和专业知识需求方面的不足。实验表明，在OpenGPT-4o-Image上进行微调的领先模型在多个基准测试中实现了显著的性能提升，证明了结构化数据构建方法对多模态AI发展的关键作用。

OpenGPT-4o-Image is a large-scale dataset designed to support research in the fields of image generation and editing. Constructed by combining hierarchical task classification and automatic data generation methods, this dataset covers 11 main domains and 51 subtasks, with a total of 80k high-quality instruction-image pairs. Organized around a hierarchical taxonomy, it systematically addresses the shortcomings of existing datasets in complex scenarios and professional knowledge requirements. Experiments show that state-of-the-art models fine-tuned on OpenGPT-4o-Image achieve significant performance improvements across multiple benchmark tests, verifying the critical role of structured data construction methods in the development of multimodal AI.

提供机构：

中国科学技术大学, 北京大学, 南京大学, 中国科学院自动化研究所, 清华大学

创建时间：

2025-09-29

原始信息汇总

OpenGPT-4o-Image 数据集概述

数据集简介

OpenGPT-4o-Image 是一个大规模数据集，采用结合分层任务分类法和自动化数据生成的新方法构建。该分类法不仅包含文本渲染和风格控制等基本能力，还引入了高度实用且具有挑战性的类别，如用于化学插图的科学图像和需要同时执行多个操作的复杂指令编辑。通过利用结构化资源池和GPT-4o的自动化流程，生成了80k个高质量指令-图像对，涵盖11个主要领域和51个子任务。

主要用途

文本到图像生成任务
图像编辑任务

数据规模

数据类型	样本数量
文本到图像生成	~40k
图像编辑	~40k
总计	~80k

数据集结构

OpenGPT-4o-Image ├── gen/ # 生成任务的图像 ├── editing/ # 编辑任务的输入/输出图像 ├── gen.json # 生成任务的标注 └── editing.json # 编辑任务的标注

数据格式

文本到图像生成 (gen.json)

input_prompt: 用于图像生成的文本提示
output_image: 生成图像的相对路径

示例： json { "input_prompt": "Collage style. Weave several satin‑finish orchid hexagons with woolen peach cubes, floating against a gradient backdrop.", "output_image": "gen/0.png" }

图像编辑 (editing.json)

input_prompt: 描述所需编辑的指令
input_image: 要编辑的源图像相对路径列表
output_image: 编辑结果图像的相对路径

示例： json { "input_prompt": "Remove the word SALAD at the top of the chalkboard.", "input_image": [ "editing/input_0.png" ], "output_image": "editing/output_0.png" }

相关资源

GitHub: https://github.com/NROwind/OpenGPT-4o-Image
论文: https://arxiv.org/abs/2509.24900

搜集汇总

数据集介绍

构建方式

在构建OpenGPT-4o-Image数据集时，研究团队采用了一种层次化任务分类与自动化生成相结合的方法。该流程首先明确定义了图像生成与编辑的核心能力，并将其分解为11个主要领域和51个子任务，涵盖从风格控制到科学图像生成等多样化场景。通过设计结构化资源池和多样化的语法模板，利用GPT-4o模型自动生成高质量的指令-图像对，最终构建了包含8万样本的大规模数据集。这种系统化的构建方式不仅确保了数据的全面覆盖，还通过难度分级机制实现了对复杂任务的有效支持。

特点

OpenGPT-4o-Image数据集最显著的特点在于其系统化的层次结构和专业化的任务覆盖。数据集将图像生成能力划分为风格控制、复杂指令遵循、图像内文本渲染、空间推理和科学图像五大核心模块，同时将图像编辑任务细分为主体操作、文本编辑等六大类别。特别值得关注的是，该数据集首次系统性地引入了科学图像生成模块，覆盖数学、物理、生物学等专业领域，并针对多指令协同编辑、多轮交互编辑等现实应用场景提供了专门的数据支持。这种精细化的分类体系使得数据集兼具广度与深度，为模型能力的全面提升奠定了坚实基础。

使用方法

该数据集主要服务于统一多模态模型的训练与评估，使用者可通过标准的微调流程将其应用于图像生成和编辑任务的性能提升。在具体应用中，研究人员可以针对特定能力模块进行针对性训练，例如利用科学图像子集增强模型的专业领域可视化能力，或通过复杂指令编辑数据提升多任务协同执行性能。实验表明，在UniWorld-V1、Harmon等主流模型上使用该数据集进行微调后，在ImgEdit-Bench等基准测试中取得了最高18%的性能提升。数据集支持分层使用策略，用户可根据实际需求选择全量数据或特定子集进行模型优化。

背景与挑战

背景概述

OpenGPT-4o-Image数据集于2025年由来自中国科学技术大学、Kling团队等机构的科研人员联合创建，旨在解决统一多模态模型在图像生成与编辑任务中面临的数据质量与覆盖范围瓶颈。该数据集通过层次化任务分类法构建了11个主要领域和51个子任务，涵盖风格控制、科学图像生成等复杂场景，其自动化流水线利用GPT-4o生成了8万对高质量指令-图像样本。实验表明，基于该数据集微调的模型在多个基准测试中实现了最高18%的性能提升，显著推动了多模态AI在专业领域应用的发展。

当前挑战

该数据集致力于解决图像生成与编辑领域的两类核心挑战：在领域问题层面，需突破现有模型对科学插图绘制、多指令同步执行等复杂场景的语义理解与生成精度限制；在构建过程中，面临自动化生成流水线对多维度指令遵循一致性的控制难题，包括跨学科知识整合、空间关系精确渲染以及文本-图像元素协调等关键技术瓶颈。

常用场景

经典使用场景

在统一多模态模型的研究中，OpenGPT-4o-Image数据集被广泛应用于图像生成与编辑任务的基准测试与模型优化。该数据集通过分层任务分类法覆盖了风格控制、科学图像生成、空间推理等11个主要领域，为研究者提供了系统评估模型复杂指令遵循能力的标准化环境。其80k高质量指令-图像对特别适用于验证模型在文本渲染精度与多属性组合任务中的表现，成为衡量多模态模型综合性能的重要试金石。

衍生相关工作

该数据集的层级化构建方法论催生了系列创新研究。UniWorld-V1模型通过融合该数据集的编辑任务数据，在复杂指令遵循方面取得突破性进展；Harmon架构则借鉴其空间推理模块的设计思路，开发出具有几何关系理解能力的生成模型。后续研究进一步扩展了其科学图像范畴，衍生出专注于医学影像生成的MedImage数据集，以及针对工业设计场景的TechViz基准测试，形成了多模态数据建设的良性发展生态。

数据集最近研究