ShareGPT-4o-Image

github2025-06-24 更新2025-06-25 收录

下载链接：

https://github.com/FreedomIntelligence/ShareGPT-4o-Image

下载链接

链接失效反馈

官方服务：

资源简介：

ShareGPT-4o-Image是一个大规模、高质量的数据集，包含92K个样本，由GPT-4o的图像生成能力生成，包括45K个文本到图像和46K个文本和图像到图像的示例。它旨在支持开发与GPT-4o在图像生成方面的优势对齐的开放多模态模型。

ShareGPT-4o-Image is a large-scale, high-quality dataset containing 92K samples generated by GPT-4o's image generation capabilities, including 45K text-to-image examples and 46K text-and-image-to-image examples. It is designed to support the development of open multimodal models aligned with GPT-4o's strengths in image generation.

创建时间：

2025-06-22

原始信息汇总

ShareGPT-4o-Image 数据集概述

📌 数据集简介

名称: ShareGPT-4o-Image
目标: 支持开发与GPT-4o图像生成能力对齐的多模态模型
规模: 92K样本（45K文本生成图像 + 46K文本和图像生成图像）
生成来源: GPT-4o的图像生成能力

📊 数据组成

数据类型	样本数量
文本生成图像 (Text-to-Image)	45,717
文本和图像生成图像 (Text-and-Image-to-Image)	46,539
总计	92,256

🛠️ 相关模型

模型名称: Janus-4o
基础模型: Janus-Pro-7B
能力:
- 文本生成图像
- 文本和图像生成图像
Hugging Face地址: FreedomIntelligence/Janus-4o-7B

📜 引用信息

bibtex @misc{chen2025sharegpt4oimg, title={ShareGPT-4o-Image: Aligning Multimodal Models with GPT-4o-Level Image Generation}, author={Junying Chen and Zhenyang Cai and Pengcheng Chen and Shunian Chen and Ke Ji and Xidong Wang and Yunjin Yang and Benyou Wang}, year={2025}, eprint={2506.18095}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2506.18095}, }

🔗 资源链接

论文地址: arXiv:2506.18095
数据集地址: Hugging Face - ShareGPT-4o-Image

搜集汇总

数据集介绍

构建方式

在人工智能多模态模型快速发展的背景下，ShareGPT-4o-Image数据集通过GPT-4o强大的图像生成能力构建而成，包含45,717个文本到图像样本和46,539个文本与图像结合生成图像的样本，总计92,256个高质量样本。该数据集旨在支持开发与GPT-4o图像生成能力对齐的开源多模态模型，为研究社区提供丰富的资源。

特点

ShareGPT-4o-Image数据集以其大规模和高质量著称，涵盖了多样化的图像生成场景。文本到图像和文本与图像结合生成图像的双重类别设计，使其能够全面评估多模态模型的性能。数据集中的样本经过精心筛选，确保了内容的多样性和复杂性，为模型训练和评估提供了坚实的基础。

使用方法

使用ShareGPT-4o-Image数据集时，研究人员可以通过Hugging Face平台轻松访问和下载数据。数据集支持文本到图像和文本与图像结合生成图像两种任务，适用于训练和评估多模态大语言模型。此外，结合Janus-4o模型，用户可以实现高效的图像生成，具体操作包括安装Janus库、加载预训练模型，并通过提供的脚本进行文本或文本与图像结合的图像生成。

背景与挑战

背景概述

ShareGPT-4o-Image是由FreedomIntelligence团队于2025年发布的大规模高质量多模态数据集，旨在推动开放多模态模型与GPT-4o图像生成能力的对齐研究。该数据集包含9.2万条由GPT-4o生成的图像样本，涵盖文本生成图像（45K）和图文联合生成图像（46K）两类任务，为多模态大语言模型（MLLM）的研发提供了重要基准。研究团队同期发布的Janus-4o模型通过该数据集实现了图文双模态生成能力的突破，相关成果发表于计算机视觉顶刊arXiv，对推动生成式AI在跨模态理解与创作领域的发展具有里程碑意义。

当前挑战

构建多模态生成数据集面临双重挑战：在领域层面，需解决生成图像与文本语义的高保真对齐问题，包括复杂场景的细节还原、多物体空间关系的准确表达等核心技术难点；在数据构建过程中，需克服大规模生成样本的质量控制难题，涉及生成多样性、内容安全性以及标注一致性的平衡。此外，图文联合生成任务还要求处理原始图像与文本指令的跨模态融合，这对数据架构设计和特征编码提出了更高维度的技术要求。

常用场景

经典使用场景

在计算机视觉与多模态学习领域，ShareGPT-4o-Image数据集通过提供9.2万组GPT-4o生成的图文配对样本，成为训练跨模态生成模型的黄金标准。其45K纯文本到图像和46K图文联合到图像的双重数据架构，特别适合用于探索文本描述与视觉内容之间的深层语义关联，为构建具有人类水平图像生成能力的多模态大语言模型提供了关键训练素材。

衍生相关工作

该数据集已催生多类创新研究：一是衍生出如Janus-4o等支持双向跨模态生成的新型架构；二是促进了扩散模型与LLM的融合技术发展，如Stable Diffusion的指令跟随版本优化；三是推动了多模态评估体系的建立，相关评测基准VALSE在细粒度对齐指标上取得突破。这些工作共同构成了当前多模态生成领域的核心研究脉络。

数据集最近研究