Laion-Aesthetics-High-Resolution-GoT, JourneyDB-GoT, OmniEdit-GoT

github2025-03-18 更新2025-03-19 收录

下载链接：

https://github.com/rongyaofang/GoT

下载链接

链接失效反馈

官方服务：

资源简介：

Laion-Aesthetics-High-Resolution-GoT: 包含3.77百万张高质量图像，这些图像从Laion-Aesthetics中筛选出尺寸大于512像素的图像。每张图像平均有3.78个边界框。JourneyDB-GoT: 包含4.09百万张高质量AI生成图像，每张图像平均有4.09个边界框。OmniEdit-GoT: 包含736K高质量图像编辑样本，涵盖多种编辑操作（添加、移除、交换、属性更改、风格转换）。

Laion-Aesthetics-High-Resolution-GoT: Contains 3.77 million high-quality images selected from Laion-Aesthetics with a resolution greater than 512 pixels. Each image has an average of 3.78 bounding boxes. JourneyDB-GoT: Consists of 4.09 million high-quality AI-generated images, with an average of 4.09 bounding boxes per image. OmniEdit-GoT: Contains 736K high-quality image editing samples covering a variety of editing operations (addition, removal, replacement, attribute modification, style transfer).

创建时间：

2025-03-11

原始信息汇总

GoT 数据集概述

数据集列表

Laion-Aesthetics-High-Resolution-GoT
- 数据量：3.77M
- 来源：Laion-Aesthetics
- 特征：
  - 高质量图像（分辨率>512像素）
  - 包含来自Qwen2-VL的提示和GoT描述
  - 平均提示长度：110.81字符
  - 平均GoT描述长度：811.56字符
  - 平均每图包含3.78个边界框
- 获取地址：https://huggingface.co/datasets/LucasFang/Laion-Aesthetics-High-Resolution-GoT
JourneyDB-GoT
- 数据量：4.09M
- 来源：AI生成图像
- 特征：
  - 高质量AI生成图像
  - 包含来自Qwen2-VL的提示和GoT描述
  - 平均提示长度：149.78字符
  - 平均GoT描述长度：906.01字符
  - 平均每图包含4.09个边界框
- 原始图像获取地址：https://opendatalab.com/OpenDataLab/JourneyDB/tree/main/raw/JourneyDB/train/imgs
- 数据集地址：https://huggingface.co/datasets/LucasFang/JourneyDB-GoT
OmniEdit-GoT
- 数据量：736K
- 来源：OmniEdit
- 特征：
  - 高质量图像编辑样本
  - 多样化的编辑操作（添加、移除、交换、属性更改、风格迁移）
  - 包含逐步编辑过程的详细推理链
  - 编辑区域的精确空间坐标标注
- 原始图像获取地址：https://huggingface.co/datasets/TIGER-Lab/OmniEdit-Filtered-1.2M
- 数据集地址：https://huggingface.co/datasets/LucasFang/OmniEdit-GoT

数据集共同特征

均包含详细的GoT描述（Generation Chain-of-Thought）
均提供语义理解和空间坐标信息
专为视觉生成和编辑任务设计

搜集汇总

数据集介绍

构建方式

Laion-Aesthetics-High-Resolution-GoT、JourneyDB-GoT和OmniEdit-GoT数据集的构建基于多模态大语言模型的推理能力，旨在通过显式的语言推理过程生成和编辑图像。Laion-Aesthetics-High-Resolution-GoT从Laion-Aesthetics中筛选出超过512像素的高质量图像，并结合Qwen2-VL生成的提示和GoT描述。JourneyDB-GoT则包含了大量AI生成的高质量图像，同样通过Qwen2-VL生成提示和GoT描述。OmniEdit-GoT则专注于图像编辑任务，提供了多样化的编辑操作和详细的推理链，并标注了精确的空间坐标。

特点

Laion-Aesthetics-High-Resolution-GoT数据集包含377万张高质量图像，每张图像平均有3.78个边界框，提示和GoT描述分别平均为110.81和811.56个字符。JourneyDB-GoT数据集包含409万张AI生成图像，提示和GoT描述分别平均为149.78和906.01个字符。OmniEdit-GoT数据集则提供了73.6万个图像编辑样本，涵盖了多种编辑操作，并包含详细的推理链和精确的空间坐标标注。

使用方法

使用这些数据集时，用户需首先安装Python 3.8及以上版本，并配置PyTorch和CUDA环境。通过克隆GitHub仓库并安装依赖包，用户可以将模型权重放置在指定目录中，包括GoT-6B模型权重、Qwen2.5-VL-3B-Instruct和Stable Diffusion XL Base 1.0。随后，用户可按照提供的推理笔记本进行图像生成和编辑任务。

背景与挑战

背景概述

Laion-Aesthetics-High-Resolution-GoT、JourneyDB-GoT和OmniEdit-GoT数据集是由Rongyao Fang、Chengqi Duan等研究人员于2025年提出的，旨在通过生成链式思维（GoT）范式，推动多模态大语言模型在视觉生成与编辑领域的推理能力。这些数据集的核心研究问题在于如何通过显式的语言推理过程，生成和编辑图像，使其更好地符合人类意图。GoT框架结合了语义理解和空间坐标，统一了图像生成与编辑的架构，显著提升了图像生成与编辑的质量和精度。该数据集在视觉生成与编辑领域具有重要的影响力，为相关研究提供了丰富的高质量数据支持。

当前挑战

Laion-Aesthetics-High-Resolution-GoT、JourneyDB-GoT和OmniEdit-GoT数据集在构建过程中面临了多方面的挑战。首先，数据集的构建需要处理海量的高质量图像数据，并确保每张图像都配有详细的语义和空间信息，这对数据处理和标注提出了极高的要求。其次，GoT框架要求生成详细的推理链，涉及复杂的语义关系和空间布局分析，这对模型的推理能力和计算资源提出了巨大挑战。此外，OmniEdit-GoT数据集中的多样化编辑操作（如添加、移除、交换、属性修改和风格转换）需要精确的空间坐标标注，进一步增加了数据构建的复杂性。这些挑战不仅体现在数据处理和模型训练上，还涉及到如何确保生成和编辑的图像在语义和空间上与人类意图高度一致。

常用场景

经典使用场景

在视觉生成和编辑领域，Laion-Aesthetics-High-Resolution-GoT、JourneyDB-GoT和OmniEdit-GoT数据集被广泛应用于多模态大语言模型的推理能力研究。这些数据集通过提供高质量的图像和详细的推理链描述，支持模型在生成和编辑任务中进行语义-空间推理，从而生成更符合人类意图的图像。

衍生相关工作

基于这些数据集，研究者们开发了多种先进的视觉生成和编辑模型，如GoT框架。这些模型通过结合语义理解和空间布局控制，显著提升了图像生成和编辑的质量和精度。此外，这些数据集还推动了多模态大语言模型在视觉任务中的应用研究，衍生出一系列相关的工作和算法改进。

数据集最近研究