SACap-1M

Hugging Face2025-08-09 更新2025-08-10 收录

下载链接：

https://huggingface.co/datasets/0xLDF/SACap-1M

下载链接

链接失效反馈

官方服务：

资源简介：

SACap-1M是一个大规模开放词汇的分割掩膜到图像生成数据集，包含100万张图像和590万个实例级别的分割掩膜。每个掩膜都标注有一个由Qwen2-VL-72B生成的区域标题，每张图像都有一个与之搭配的全局标题。

创建时间：

2025-08-08

原始信息汇总

SACap-1M数据集概述

数据集基本信息

语言: 英语 (en)
标签: 数据集、图像分割、文本到图像、布局到图像、多模态、视觉
数据集类型: 自定义
许可证: Apache-2.0

数据集内容

规模: 包含1百万张图像和5.9百万个实例级分割掩码
标注:
- 每个掩码标注有一个区域级描述（平均14.1个单词），由Qwen2-VL-72B生成
- 每张图像配有一个全局描述（平均58.6个单词）
数据来源: 高分辨率SA-1B数据集

下载与使用

从Meta官网下载SA-1B数据集
下载SACap-1M获取密集标注
详细使用说明请参考GitHub: https://github.com/0xLDF/Seg2Any

许可与引用

许可证: Apache2.0，仅限研究用途
引用: bibtex @article{ li2025seg2any, title={Seg2Any: Open-set Segmentation-Mask-to-Image Generation with Precise Shape and Semantic Control}, author={Li, Danfeng and Zhang, Hui and Wang, Sheng and Li, Jiacheng and Wu, Zuxuan}, journal={arXiv preprint arXiv:2506.00596}, year={2025} }

搜集汇总

数据集介绍

构建方式

SACap-1M数据集作为大规模开放词汇的语义分割掩码到图像生成基准，其构建过程体现了多模态数据处理的严谨性。该数据集源自高分辨率SA-1B数据集，通过Qwen2-VL-72B模型为590万实例级分割掩码生成区域描述（平均14.1词），同时为每张图像配属全局描述（平均58.6词）。这种双层次标注策略既保留了原始分割数据的几何精度，又通过大语言模型注入了丰富的语义信息。

使用方法

使用该数据集需遵循分层处理流程：首先需从Meta官方获取SA-1B基础图像数据，继而加载本数据集提供的密集标注。实践应用时建议参考配套的SACap-eval评估基准，该子集从空间布局和属性保持两个维度，通过Qwen2-VL-72B模型以视觉问答形式进行生成质量评估。官方GitHub仓库提供了完整的预处理和模型训练范例，研究者可据此构建具有精确形状与语义控制能力的生成模型。

背景与挑战

背景概述

SACap-1M数据集作为一项面向开放词汇的语义分割掩码到图像生成任务的大规模基准，由Meta公司的高分辨率SA-1B数据集衍生而来，于2025年由Danfeng Li等学者在《Seg2Any》研究中正式提出。该数据集包含100万张图像和590万个实例级分割掩码，每个掩码均通过Qwen2-VL-72B模型生成区域描述（平均14.1词），同时每张图像配备全局描述（平均58.6词），为多模态视觉-语言研究提供了细粒度的跨模态对齐基准。其创新性地将分割掩码与自然语言描述相结合，显著推动了可控图像生成领域的发展，特别是在精确形状与语义控制方面树立了新的研究范式。

当前挑战

在解决分割掩码到图像生成的领域挑战方面，SACap-1M需应对开放词汇环境下语义精确映射的难题，包括复杂场景中多实体空间关系的保持、细粒度属性与生成图像的视觉一致性等核心问题。数据集构建过程中，研究人员面临大规模高质量标注的挑战：基于Qwen2-VL-72B的自动化标注需平衡描述丰富度与准确性，原始SA-1B数据的掩码质量直接影响生成任务的可靠性，而跨模态对齐评估体系SACap-eval的设计也需克服视觉问答模型在空间与属性维度评估的偏差问题。

常用场景

经典使用场景

在计算机视觉领域，SACap-1M数据集因其大规模实例级分割掩码和丰富的区域标注而成为研究分割掩码到图像生成任务的经典资源。该数据集广泛应用于生成对抗网络（GANs）和扩散模型的训练与评估，特别是在需要精确控制生成图像形状和语义的场景中。通过结合全局和区域标注，研究者能够探索细粒度的图像生成方法，推动开放词汇分割掩码到图像生成技术的发展。

解决学术问题

SACap-1M数据集有效解决了开放词汇分割掩码到图像生成中的两大核心问题：形状精确控制和语义一致性保持。其提供的百万级掩码和密集标注为模型训练提供了充足的监督信号，显著提升了生成图像的多样性和真实性。该数据集填补了传统分割数据集在生成任务中标注粒度不足的空白，为多模态视觉研究提供了新的基准。

实际应用

在实际应用中，SACap-1M数据集支撑了包括创意设计辅助、虚拟场景构建和医学图像合成等多个领域的技术落地。广告行业利用其区域标注能力实现精准的产品展示合成，游戏开发则借助掩码到图像的生成技术快速构建虚拟环境。特别在需要高精度图像编辑的场景中，该数据集训练的模型展现出显著优势。

数据集最近研究