lygsbw/UMG-41M

Name: lygsbw/UMG-41M
Creator: lygsbw
Published: 2024-07-13 06:55:16
License: 暂无描述

Hugging Face2024-07-13 更新2024-07-06 收录

下载链接：

https://hf-mirror.com/datasets/lygsbw/UMG-41M

下载链接

链接失效反馈

官方服务：

资源简介：

UMG-41M是我们ECCV 2024论文UMG-CLIP（UMG-CLIP：开放世界理解中的统一多粒度视觉通用模型）的一个组成部分。它包括图像级别和像素级别的标签和标题注释，以及来自六个公共数据集（CC3M, CC12M, SBU, VG, YFCC15M, IN21K）的图像的前景和背景分割掩码。数据集可以通过解压子数据集的zip包、从各自网站下载数据并使用WebDataset库访问数据的方法来使用。

UMG-41M is a component of our ECCV 2024 paper, UMG-CLIP (UMG-CLIP: A Unified Multi-Granularity Vision Generalist for Open-World Understanding). It includes tag and caption annotations at both the image level and pixel level, as well as segmentation masks for both the foreground and background of images from six public datasets: CC3M, CC12M, SBU, VG, YFCC15M, and IN21K. The dataset can be used by unzipping the zip packages of the individual subdatasets, downloading the data from their respective websites, and using the WebDataset library to access the data.

提供机构：

lygsbw

原始信息汇总

UMG-41M 数据集概述

数据集描述

名称: UMG-41M
来源: ECCV 2024 论文 UMG-CLIP (UMG-CLIP: A Unified Multi-Granularity Vision Generalist for Open-World Understanding)
内容: 包含图像级别和像素级别的标签和字幕注释，以及前景和背景的分割掩码。
数据来源: 来自六个公开数据集：CC3M, CC12M, SBU, VG, YFCC15M, 和 IN21K。

数据集使用方法

解压缩: 解压各个子数据集的压缩包，每个子数据集包含多个子文件夹，每个子文件夹包含与图像对应的JSON注释。
下载数据: 从各自网站下载各个子数据集的数据，并将对应的PNG图像放置在与JSON注释相同的文件夹中。
访问数据: 使用WebDataset库在代码中访问此数据。

相关资源

代码库: 相关代码将在 https://github.com/lygsbw/UMG-CLIP 提供。

搜集汇总

数据集介绍

构建方式

在计算机视觉领域，大规模多粒度标注数据对于推动开放世界理解模型的发展至关重要。UMG-41M数据集的构建整合了六个公开数据集——CC3M、CC12M、SBU、VG、YFCC15M与IN21K，通过系统化的标注流程，为每幅图像同时提供了图像级与像素级的标签及描述，并生成了前景与背景的分割掩码。这种多层次注释的融合，不仅统一了不同数据源的格式，还确保了标注信息在语义与空间维度上的完整性，为模型训练奠定了扎实的数据基础。

特点

UMG-41M的突出特点在于其统一的多粒度标注体系。数据集不仅包含传统的图像级标签和描述，还扩展至像素级的精细注释，配合前景与背景的分割掩码，实现了从全局到局部的全面视觉表征。这种结构支持模型同时学习整体场景理解与细节对象识别，有效促进了跨粒度视觉知识的融合，为开放世界理解任务提供了丰富而一致的训练资源。

使用方法

使用UMG-41M时，需先解压各子数据集的压缩包，其中包含多个子文件夹，每个文件夹内存储与图像对应的JSON注释文件。随后，从各原始数据集网站下载图像数据，将PNG格式图像放置于与JSON文件相同的目录中。为提升数据访问效率，推荐利用WebDataset库在代码中加载和处理数据，具体实现可参考UMG-CLIP项目的开源代码库。

背景与挑战

背景概述

在计算机视觉领域，开放世界理解任务要求模型具备跨粒度、跨场景的视觉语义解析能力，传统数据集往往局限于单一标注层次或有限视觉概念。UMG-41M数据集作为ECCV 2024会议论文UMG-CLIP的核心组成部分，由研究团队于2024年构建，旨在通过整合CC3M、CC12M、SBU、VG、YFCC15M及IN21K等六个公开数据集，提供图像级与像素级的多粒度标注体系，包括标签、描述文本及前景背景分割掩码，以推动视觉通用模型在复杂开放环境中的语义理解与结构感知能力发展。

当前挑战

该数据集致力于应对开放世界视觉理解中多粒度语义对齐的挑战，即如何统一建模从全局图像描述到局部像素分割的异构视觉信息，以增强模型对未知场景的泛化能力。在构建过程中，研究团队面临标注一致性与规模平衡的双重困难：一方面需协调不同来源数据集的标注标准与质量差异，确保跨数据集标签体系的兼容性；另一方面需处理海量图像与像素级掩码的存储、索引及高效访问问题，以维持数据集的实用性与可扩展性。

常用场景

经典使用场景

在开放世界视觉理解领域，UMG-41M数据集以其统一的多粒度标注体系，为视觉-语言模型的训练提供了关键支撑。该数据集整合了图像级标签与描述、像素级分割掩码，使得模型能够同时学习全局语义与局部细节，经典应用场景包括训练如UMG-CLIP等通用视觉模型，实现从粗粒度到细粒度的跨模态对齐，提升模型在复杂场景下的理解能力。

衍生相关工作

基于UMG-41M数据集，衍生出了一系列经典研究工作，其中最突出的是UMG-CLIP模型，该模型在ECCV 2024中提出，统一了多粒度视觉表示学习。此外，该数据集还启发了后续在开放世界分割、视觉问答及跨模态检索等方向的探索，为多任务视觉模型的设计提供了数据驱动的灵感，推动了视觉通用智能领域的持续演进。

数据集最近研究