five

GoT Dataset

收藏
arXiv2025-03-14 更新2025-03-15 收录
下载链接:
https://github.com/rongyaofang/GoT
下载链接
链接失效反馈
官方服务:
资源简介:
GoT数据集是由CUHK MMLab等研究机构创建的大型视觉生成和编辑任务数据集,包含超过920万个样本,详细记录了语义-空间关系的推理链。该数据集用于文本到图像生成和图像编辑任务,通过高级的多模态语言模型和LLM构建复杂的注释管道,捕捉不同视觉上下文中的语义-空间交互。

The GoT dataset is a large-scale visual generation and editing task dataset created by research institutions such as CUHK MMLab. It encompasses over 9.2 million samples and comprehensively documents the reasoning chains of semantic-spatial relationships. Designed for text-to-image generation and image editing tasks, this dataset constructs a complex annotation pipeline via advanced multimodal language models and LLMs to capture semantic-spatial interactions across diverse visual contexts.
提供机构:
CUHK MMLab, HKU, SenseTime, Shanghai AI Laboratory, THU, BUAA
创建时间:
2025-03-14
搜集汇总
数据集介绍
main_image_url
构建方式
GoT数据集的构建方式采用了先进的机器学习模型和大规模的数据集。首先,研究人员利用Qwen2.5-VL和Qwen2.5等模型进行自动化的数据创建流程,通过多个阶段的处理来生成高质量的标注。对于文本到图像的生成任务,他们使用了Qwen2-VL模型生成简短的提示和详细的视觉描述,并通过Qwen2.5进行实体提取和对象定位。对于图像编辑任务,他们使用了Qwen2-VL模型生成源图像和目标图像的描述,并通过Qwen2.5生成编辑对象的详细描述。最后,他们将这些标注和对应的图像组成GoT数据集,用于训练和评估模型。
特点
GoT数据集的特点在于其详细且丰富的标注。每个样本都包含了指令、推理链标注和对应的图像。推理链标注包含了语义和空间信息,能够捕捉对象之间的关系和空间配置。这使得GoT数据集能够支持对对象布局、关系和属性的精确控制,并且在图像编辑任务中能够利用语义和空间理解来分解用户请求。此外,GoT数据集还支持交互式生成,允许用户直接修改推理过程,以实现更精确的图像调整。
使用方法
GoT数据集的使用方法是将推理链作为输入,通过一个端到端的框架来生成或编辑图像。首先,使用一个语义空间感知的多模态语言模型(MLLM)来生成推理链,其中包括对象属性、关系、修改和边界框信息。然后,将推理链作为输入传递给一个多引导扩散模型,该模型利用语义、空间和参考图像的引导来生成最终的图像。这个框架支持端到端的训练和推理,使得生成的图像能够精确地遵循推理过程,并且能够实现详细的控制和调整。
背景与挑战
背景概述
GoT数据集的创建旨在解决当前图像生成和编辑方法在处理复杂场景时缺乏推理能力的问题。该数据集由来自CUHK MMLab、HKU、SenseTime、上海人工智能实验室、清华大学和北京航空航天大学的研究人员合作构建,于2025年3月发布。GoT数据集的核心研究问题是如何将大型语言模型的推理能力引入视觉生成和编辑任务中,使图像生成更加符合人类的意图。该数据集的创建对视觉生成和编辑领域产生了重要影响,为相关研究提供了宝贵的数据资源。
当前挑战
GoT数据集所面临的挑战主要包括:1) 构建过程中需要收集大量包含详细推理链的数据样本,以捕捉语义和空间关系;2) 设计一个能够支持端到端语言推理和视觉生成的框架,将大型语言模型的推理能力与扩散模型的生成质量相结合。
常用场景
经典使用场景
GoT数据集在视觉生成和编辑任务中具有经典应用场景。通过将文本提示转化为明确的推理链,GoT为图像生成提供了精确的语义和空间控制,并能够进行交互式生成,使用户能够通过修改推理过程来定制生成图像。
衍生相关工作
GoT数据集衍生了多项相关工作。例如,基于GoT推理链的视觉生成和编辑模型,以及结合GoT推理链和扩散模型的视觉生成和编辑框架。这些相关工作进一步推动了推理驱动的视觉生成和编辑技术的发展。
数据集最近研究
最新研究方向
GoT数据集的最新研究方向主要集中在将多模态大型语言模型的推理能力应用于视觉生成和编辑任务。该研究提出了一个名为“生成思维链”(GoT)的新型范式,通过显式的语言推理过程来引导图像生成和编辑。GoT将传统的文本到图像生成和编辑方法转变为一个推理引导的框架,该框架分析语义关系和空间排列。GoT的推理链涵盖了超过9M个样本,详细地捕捉了语义-空间关系。为了利用GoT的优势,研究团队实现了一个统一的框架,该框架集成了Qwen2.5-VL用于推理链生成,并通过新颖的语义-空间指导模块增强了端到端扩散模型。实验表明,GoT框架在生成和编辑任务上都取得了优异的性能,与基线相比有显著的提升。此外,GoT还实现了交互式视觉生成,允许用户通过直接修改推理步骤来精确调整图像。GoT开辟了推理驱动视觉生成和编辑的新方向,生成更符合人类意图的图像。
相关研究论文
  • 1
    GoT: Unleashing Reasoning Capability of Multimodal Large Language Model for Visual Generation and EditingCUHK MMLab, HKU, SenseTime, Shanghai AI Laboratory, THU, BUAA · 2025年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作