GoT Dataset

Name: GoT Dataset
Creator: CUHK MMLab, HKU, SenseTime, Shanghai AI Laboratory, THU, BUAA
Published: 2025-03-14 01:59:59
License: 暂无描述

arXiv2025-03-14 更新2025-03-15 收录

下载链接：

https://github.com/rongyaofang/GoT

下载链接

链接失效反馈

官方服务：

资源简介：

GoT数据集是由CUHK MMLab等研究机构创建的大型视觉生成和编辑任务数据集，包含超过920万个样本，详细记录了语义-空间关系的推理链。该数据集用于文本到图像生成和图像编辑任务，通过高级的多模态语言模型和LLM构建复杂的注释管道，捕捉不同视觉上下文中的语义-空间交互。

The GoT dataset is a large-scale visual generation and editing task dataset created by research institutions such as CUHK MMLab. It encompasses over 9.2 million samples and comprehensively documents the reasoning chains of semantic-spatial relationships. Designed for text-to-image generation and image editing tasks, this dataset constructs a complex annotation pipeline via advanced multimodal language models and LLMs to capture semantic-spatial interactions across diverse visual contexts.

提供机构：

CUHK MMLab, HKU, SenseTime, Shanghai AI Laboratory, THU, BUAA

创建时间：

2025-03-14

搜集汇总

数据集介绍

构建方式

GoT数据集的构建方式采用了先进的机器学习模型和大规模的数据集。首先，研究人员利用Qwen2.5-VL和Qwen2.5等模型进行自动化的数据创建流程，通过多个阶段的处理来生成高质量的标注。对于文本到图像的生成任务，他们使用了Qwen2-VL模型生成简短的提示和详细的视觉描述，并通过Qwen2.5进行实体提取和对象定位。对于图像编辑任务，他们使用了Qwen2-VL模型生成源图像和目标图像的描述，并通过Qwen2.5生成编辑对象的详细描述。最后，他们将这些标注和对应的图像组成GoT数据集，用于训练和评估模型。

特点

GoT数据集的特点在于其详细且丰富的标注。每个样本都包含了指令、推理链标注和对应的图像。推理链标注包含了语义和空间信息，能够捕捉对象之间的关系和空间配置。这使得GoT数据集能够支持对对象布局、关系和属性的精确控制，并且在图像编辑任务中能够利用语义和空间理解来分解用户请求。此外，GoT数据集还支持交互式生成，允许用户直接修改推理过程，以实现更精确的图像调整。

使用方法

GoT数据集的使用方法是将推理链作为输入，通过一个端到端的框架来生成或编辑图像。首先，使用一个语义空间感知的多模态语言模型（MLLM）来生成推理链，其中包括对象属性、关系、修改和边界框信息。然后，将推理链作为输入传递给一个多引导扩散模型，该模型利用语义、空间和参考图像的引导来生成最终的图像。这个框架支持端到端的训练和推理，使得生成的图像能够精确地遵循推理过程，并且能够实现详细的控制和调整。

背景与挑战

背景概述

GoT数据集的创建旨在解决当前图像生成和编辑方法在处理复杂场景时缺乏推理能力的问题。该数据集由来自CUHK MMLab、HKU、SenseTime、上海人工智能实验室、清华大学和北京航空航天大学的研究人员合作构建，于2025年3月发布。GoT数据集的核心研究问题是如何将大型语言模型的推理能力引入视觉生成和编辑任务中，使图像生成更加符合人类的意图。该数据集的创建对视觉生成和编辑领域产生了重要影响，为相关研究提供了宝贵的数据资源。

当前挑战

GoT数据集所面临的挑战主要包括：1) 构建过程中需要收集大量包含详细推理链的数据样本，以捕捉语义和空间关系；2) 设计一个能够支持端到端语言推理和视觉生成的框架，将大型语言模型的推理能力与扩散模型的生成质量相结合。

常用场景

经典使用场景

GoT数据集在视觉生成和编辑任务中具有经典应用场景。通过将文本提示转化为明确的推理链，GoT为图像生成提供了精确的语义和空间控制，并能够进行交互式生成，使用户能够通过修改推理过程来定制生成图像。

衍生相关工作

GoT数据集衍生了多项相关工作。例如，基于GoT推理链的视觉生成和编辑模型，以及结合GoT推理链和扩散模型的视觉生成和编辑框架。这些相关工作进一步推动了推理驱动的视觉生成和编辑技术的发展。

数据集最近研究