UniWorld-V1

Name: UniWorld-V1
Creator: 北京大学深圳研究生院
Published: 2025-06-04 01:59:33
License: 暂无描述

arXiv2025-06-04 更新2025-06-06 收录

下载链接：

https://huggingface.co/datasets/LanguageBind/UniWorld-V1

下载链接

链接失效反馈

官方服务：

资源简介：

UniWorld数据集是一个用于图像理解和生成任务的统一数据集，由北京大学深圳研究生院和鹏城实验室等机构创建。该数据集包含约2.7M个样本，包括图像感知和操作任务的数据，例如检测、分割、深度预测、添加、调整、提取等。数据集的创建过程包括使用高质量的开源数据、自生成数据和过滤后的开源数据，并使用自适应编辑区域加权策略来处理图像编辑任务。UniWorld数据集旨在解决图像理解和生成任务中的挑战，并支持多模态领域的研究和开发。

The UniWorld Dataset is a unified dataset for image understanding and generation tasks, developed by institutions including Peking University Shenzhen Graduate School and Peng Cheng Laboratory. This dataset contains approximately 2.7 million samples, covering data for image perception and manipulation tasks such as detection, segmentation, depth prediction, image addition, adjustment, and extraction. The dataset's development process incorporates high-quality open-source data, self-generated data, and filtered open-source data, and adopts an adaptive editing region weighting strategy to handle image editing tasks. The UniWorld Dataset aims to address the challenges in image understanding and generation tasks, and supports research and development in the multimodal domain.

提供机构：

北京大学深圳研究生院

创建时间：

2025-06-04

原始信息汇总

数据集概述

基本信息

许可证: MIT
相关论文: UniWorld: High-Resolution Semantic Encoders for Unified Visual Understanding and Generation
更多详情: UniWorld-V1

数据来源

Geneval-style数据集: 来源于BLIP3o-60k，其中一半数据添加了文本到图像的指令。[108 GB存储空间]

数据分类及详情

文本到图像生成

BLIP3o-60k: 添加了文本到图像的指令。[108 GB存储空间]
OSP1024-286k: 来源于Open-Sora Plan内部数据，使用Qwen2-VL-72B生成标题。图像宽高比在3:4到4:3之间，美观度评分≥6，短边≥1024像素。[326 GB存储空间]

图像编辑

imgedit-724k: 使用GPT-4o过滤，保留约一半数据。[2.8T存储空间]
OmniEdit-368k: 过滤掉编辑区域小于1/100的样本，图像短边≥1024像素。[204 GB存储空间]
SEED-Data-Edit-Part1-Openimages-65k: 过滤掉编辑区域小于1/100的样本，图像短边≥1024像素。[10 GB存储空间]
SEED-Data-Edit-Part2-3-12k: 过滤掉编辑区域小于1/100的样本，图像短边≥1024像素。[10 GB存储空间]
PromptfixData-18k: 用于图像修复和部分编辑数据，过滤掉编辑区域小于1/100的样本，图像短边≥1024像素。[9 GB存储空间]
StyleBooth-11k: 用于风格转换数据，图像短边≥1024像素。[4 GB存储空间]
Ghibli-36k: 用于风格转换数据，图像短边≥1024像素。警告：此数据未经过质量过滤。[170 GB存储空间]

提取与试穿

viton_hd-23k: 从源数据转换为产品提取的指令数据集。[1 GB存储空间]
deepfashion-27k: 从源数据转换为产品提取的指令数据集。[1 GB存储空间]
shop_product-23k: 来源于Open-Sora Plan内部数据，专注于产品提取和虚拟试穿，图像短边≥1024像素。[12 GB存储空间]

图像感知

coco2017_caption_canny-236k: 图像到canny边缘检测及反向操作。[25 GB存储空间]
coco2017_caption_depth-236k: 图像到深度图及反向操作。[8 GB存储空间]
coco2017_caption_hed-236k: 图像到HED边缘检测及反向操作。[13 GB存储空间]
coco2017_caption_mlsd-236k: 图像到MLSD边缘检测及反向操作。[存储空间未指定]
coco2017_caption_normal-236k: 图像到法线图及反向操作。[10 GB存储空间]
coco2017_caption_openpose-62k: 图像到姿态估计及反向操作。[2 GB存储空间]
coco2017_caption_sketch-236k: 图像到草图及反向操作。[15 GB存储空间]
unsplash_canny-20k: 图像到canny边缘检测及反向操作。[2 GB存储空间]
open_pose-40k: 图像到姿态估计及反向操作。[4 GB存储空间]
mscoco-controlnet-canny-less-colors-236k: 图像到canny边缘检测及反向操作。[13 GB存储空间]
coco2017_seg_box-448k: 图像到检测和分割（掩码），过滤掉区域小于1/100的实例。[39 GB存储空间]
viton_hd-11k: 图像到姿态估计。[1 GB存储空间]
deepfashion-13k: 图像到姿态估计。[1 GB存储空间]

搜集汇总

数据集介绍

构建方式

UniWorld-V1数据集的构建采用了多模态融合的策略，通过整合开源高质量数据、自生成数据以及经过筛选的开放数据源，覆盖了图像感知、图像操纵和文本到图像生成三大任务。具体而言，图像感知数据主要来源于Graph200k和COCO2017，包含边缘检测、深度估计、分割掩码等多种感知任务，总计约1.4M样本；图像操纵数据则精选自ImgEdit和SEED-X的高分样本，并辅以风格迁移和虚拟试穿等场景，规模达1M；文本到图像生成数据则结合BLIP3-o和Open-Sora Plan的内部资源，通过高分辨率（≥1024×1024）和美学评分（≥6.0）筛选，形成约300k样本。此外，针对编辑任务中掩码缺失的问题，设计了基于像素差分、膨胀和连通域过滤的自适应掩码生成流程，并通过对数加权策略平衡编辑区域与背景的损失权重。

特点

UniWorld-V1的核心特点在于其高效性与多功能性的统一。作为首个集成视觉理解、感知与生成任务的开源模型，该数据集仅用2.7M训练样本即超越需2665M数据的BAGEL模型，在ImgEdit-Bench的编辑任务中综合得分达3.37，尤其在调整（3.70）、移除（3.54）等细分任务中表现突出。其创新性体现在采用SigLIP等高分辨率语义编码器替代传统VAE，既保留了像素级局部信息，又强化了语义级全局表征，使得模型在边缘检测、法线图生成等感知任务中展现优于GPT-4o的指令理解能力。此外，数据集通过冻结多模态大语言模型组件，无缝继承了Qwen2.5-VL-7B的强大多模态理解能力，无需额外训练即实现67.1的MM-Vet得分。

使用方法

使用UniWorld-V1需遵循两阶段训练框架：第一阶段聚焦语义对齐，通过可训练的MLP将视觉语言模型（VLM）特征映射至FLUX文本分支，仅需冻结参数即可完成文本到图像的初步生成；第二阶段解冻FLUX图像分支参数，引入SigLIP特征作为参考图像控制信号，经过5,000-10,000步微调后实现指令驱动的图像生成。针对大模型内存挑战，采用ZeRO-3分片策略存储EMA模型，将20B参数分散至N个GPU，单卡仅需20×4/N GiB内存。实际应用中，用户可通过Hugging Face获取预训练权重，并利用提供的评估脚本在ImgEdit-Bench、GenEval等基准测试中验证模型性能，或通过自定义指令模板探索图像编辑、风格迁移等任务。

背景与挑战

背景概述

UniWorld-V1是由北京大学深圳研究生院、鹏城实验室和Rabbitpre AI的研究团队于2025年提出的一个统一视觉理解与生成框架。该数据集旨在解决现有统一模型在图像感知（如检测、分割）和图像操作（如编辑、风格迁移）任务上的局限性。受GPT-4o-Image模型的启发，研究团队通过整合预训练的多模态大模型和高分辨率对比语义编码器，构建了一个能够同时处理图像理解与生成任务的统一架构。UniWorld-V1仅使用270万训练样本，便在图像编辑基准测试中超越了使用26.65亿样本训练的BAGEL模型，展现了卓越的数据效率。这一成果为多模态领域的统一模型设计提供了新的思路，并开源了完整的模型权重、训练脚本和数据集，推动了相关研究的进一步发展。

当前挑战

UniWorld-V1面临的挑战主要体现在两个方面：领域问题挑战和构建过程挑战。在领域问题方面，图像感知与操作任务需要模型具备多种高级能力，包括文本与视觉的统一理解能力、像素级信息保持能力以及跨域语义提取能力，这些要求对模型的架构设计提出了严峻考验。在构建过程中，研究团队需要克服视觉特征注入方式的难题，传统基于VAE的方法因低频信息过多而难以同时处理多种任务。此外，数据收集与标注的高成本、不同分辨率图像的兼容性处理，以及编辑区域权重分配策略的设计，均为数据集的构建带来了显著挑战。

常用场景

经典使用场景

UniWorld-V1数据集在计算机视觉领域的高分辨率语义编码任务中展现出卓越的性能。该数据集通过整合多模态大模型和高分辨率对比语义编码器，为图像感知与操作任务提供了统一的解决方案。其经典使用场景包括图像边缘检测、深度预测、分割和草图生成等任务，这些任务在自动驾驶、医学影像分析和工业检测等领域具有广泛的应用前景。

衍生相关工作

UniWorld-V1数据集的发布催生了一系列相关研究工作。基于该数据集的开源模型和训练方法，研究者们开发了多个改进版本，如专注于更高分辨率输入的扩展模型和优化训练效率的轻量级变体。该数据集还启发了对语义编码器在其他多模态任务中应用的研究，推动了图像生成与理解的一体化发展。其开源策略进一步促进了社区在统一视觉模型领域的协作创新。

数据集最近研究