Graph200K

Name: Graph200K
Creator: 南开大学计算机科学与技术学院, 北京邮电大学, 清华大学, 上海人工智能实验室, 香港中文大学
Published: 2025-04-11 01:59:42
License: 暂无描述

arXiv2025-04-11 更新2025-04-15 收录

下载链接：

http://arxiv.org/abs/2504.07960v1

下载链接

链接失效反馈

官方服务：

资源简介：

Graph200K是一个图结构的多任务数据集，由南开大学计算机科学与技术学院等机构构建。该数据集对Subject200K数据集进行增强，为每张图像添加了49种不同任务的标注，覆盖了条件生成、图像修复、图像编辑、IP保持和风格转换等五个元任务。通过任务标注的组合，数据集支持构建多样化的相关任务，促进了模型在任务间的知识共享和迁移性学习，增强了模型的泛化能力。

Graph200K is a graph-structured multi-task dataset constructed by the College of Computer Science and Technology of Nankai University and other institutions. This dataset is an enhanced version of the Subject200K dataset, which adds annotations for 49 distinct tasks to each image, covering five meta-tasks including conditional generation, image inpainting, image editing, identity preservation, and style transfer. By combining these task annotations, the dataset supports the construction of diverse related tasks, facilitating knowledge sharing and transfer learning across tasks for models and enhancing the generalization capability of the models.

提供机构：

南开大学计算机科学与技术学院, 北京邮电大学, 清华大学, 上海人工智能实验室, 香港中文大学

创建时间：

2025-04-11

搜集汇总

数据集介绍

构建方式

Graph200K数据集采用图结构设计，将每幅图像作为中心节点，围绕其构建涵盖五种元任务（条件生成、图像修复、图像编辑、IP保持和风格迁移）的49类标注。通过随机组合不同任务的标注，形成高度重叠的134种任务路径，增强任务间的知识迁移。数据构建过程中，除继承Subjects200K的主体驱动数据外，还采用在线退化生成修复数据，并利用ControlNet框架生成12种空间条件，结合SAM2掩码和Qwen2-VL的开放世界标注扩展条件多样性。风格迁移任务通过InstantStyle和FLUX.1-Redux分别生成语义不变/变体风格，图像编辑则基于Qwen2-VL的文本引导实现背景不变/变体编辑。

特点

该数据集的核心特性体现在其图结构的强连通性设计，任意两个节点间存在双向路径，支持通过路径组合灵活定义生成任务。任务密度显著高于传统视觉数据集，单图像可关联多达49种标注类型，促进跨任务共享表征学习。数据覆盖范围广，包含200K图像及其多模态衍生数据（如深度图、边缘图、风格化变体等），并整合了VITON-HD虚拟试穿和PhotoDoodle艺术编辑等外部数据以增强泛化性。特别地，通过随机掩码条件图像的训练策略，数据集还支持逆向生成任务的隐式学习。

使用方法

使用该数据集时，需将任务表述为图路径查询：路径中间节点作为条件图像，末端节点作为生成目标。训练时采用网格化拼接策略，将最多2个上下文示例（各含2-4张图像）与查询图像拼接为384×384或512×512的网格输入，通过FLUX.1-Fill-dev模型的图像修复范式实现统一处理。推理阶段支持动态扩展上下文示例数量以提升任务准确性。对于语言引导任务，需组合布局指令（描述网格结构）、任务指令（明确任务类型）和内容指令（指定生成内容）三类文本提示。该设计允许直接微调预训练修复模型，无需修改架构即可支持多任务联合训练。

背景与挑战

背景概述

Graph200K是由上海人工智能实验室（Shanghai AI Laboratory）联合南开大学、北京邮电大学、清华大学等机构的研究团队于2025年提出的图结构多任务数据集。该数据集作为VisualCloze框架的核心组成部分，旨在解决通用图像生成模型面临的三大核心挑战：可泛化的任务指令设计、视觉任务分布的稀疏性，以及统一架构的适配性问题。数据集通过将每幅图像构建为图结构的中心节点，关联49类跨5种元任务（条件生成、图像修复、编辑、风格迁移和IP保护）的标注，形成了高度互联的紧凑任务空间，显著提升了视觉任务的密度和知识迁移效率。其创新性的图结构设计使模型能够通过路径采样灵活构建134种关联任务，为视觉上下文学习提供了丰富的任务演示范例。

当前挑战

Graph200K面临的挑战主要体现在两个维度：在领域问题层面，需突破传统任务特定模型在跨任务泛化上的局限性，解决图像生成中条件控制模糊（如文本指令与视觉模态的语义鸿沟）、多任务知识迁移效率低下等核心问题；在构建过程层面，数据集需克服视觉任务固有的稀疏性难题——不同视觉任务数据集间重叠有限导致知识隔离，为此研究团队创新性地通过图结构建模任务关联性，并引入在线退化生成、语义保留/变异风格迁移等复杂标注策略。此外，保持不同元任务标注间的一致性，以及处理高分辨率图像（384×384至512×512）的存储与计算优化，也是构建过程中的关键技术挑战。

常用场景

经典使用场景

Graph200K数据集在视觉上下文学习（Visual In-Context Learning）领域具有广泛的应用。该数据集通过图结构设计，将图像生成任务中的条件生成、风格迁移、图像修复等多种任务紧密关联，形成一个高密度的任务空间。研究者可以利用该数据集训练通用图像生成模型，使其通过少量视觉示例理解任务意图，从而在多种图像生成任务中表现出色。

衍生相关工作

Graph200K数据集催生了多项创新性研究，其中最典型的是VisualCloze框架。该框架将图像生成任务统一为视觉填空问题，充分利用数据集的图结构特性实现多任务学习。后续工作如OmniControl和UniReal等通用生成模型，均受其任务密度增强思想的启发。此外，该数据集还促进了视觉上下文学习在图像修复、跨模态生成等方向的发展，形成了一系列基于任务关联性的延伸研究。

数据集最近研究