SIGBenchmark
收藏github2026-05-09 更新2026-05-12 收录
下载链接:
https://github.com/LukasYan30/MorphSIG
下载链接
链接失效反馈官方服务:
资源简介:
SIGBenchmark是一个用于多主体可控图像生成的新基准数据集,它解决了现有基准在主体规模限制或缺乏像素对齐地面实况方面的不足。该数据集包含225个不同主体,按科学分层分类法组织(涵盖人类、动物、物体、艺术品和虚拟化身),支持2到4个主体的复杂场景组合,提供750个超高保真样本组,每个组都配有详细提示和像素级地面实况图像,并通过混合流程构建,结合了最先进的MLLM和人工专家验证以确保视觉保真度和语义丰富性。
SIGBenchmark is a novel benchmark dataset for multi-subject controllable image generation, which addresses the shortcomings of existing benchmarks in terms of subject scale limitations and the lack of pixel-aligned ground truth. This dataset contains 225 distinct subjects, organized under a scientific hierarchical taxonomy covering humans, animals, objects, artworks and virtual avatars. It supports complex scene compositions with 2 to 4 subjects, and provides 750 ultra-high-fidelity sample sets, each paired with detailed prompts and pixel-level ground truth images. The dataset is constructed through a hybrid workflow that combines state-of-the-art MLLMs and manual expert validation to ensure visual fidelity and semantic richness.
创建时间:
2026-04-29
原始信息汇总
数据集概述:SIGBenchmark
SIGBenchmark 是一个用于多主体可控图像生成的基准数据集,旨在解决现有基准在主体规模和像素级真实标注方面的不足。它提供了精确的像素级真实图像对,以支持对语义一致性和结构多样性的客观量化评估。
关键特征
- 主体多样性:包含 225 个不同主体,按照科学层次分类(涵盖人类、动物、物体、艺术品和虚拟形象)。
- 复杂场景组合:支持 2 到 4 个主体 的跨类别组合场景,分布均匀。
- 高质量真实标注:包含 750 个超高质量样本组,每个组配有详细提示词和像素级真实图像。
- 严格筛选流程:采用混合流程构建,结合先进的多模态大语言模型(Qwen3-VL-Plus、Qwen3.6-Plus、Nano Banana)和人工专家验证。
数据集下载
数据集托管于 Google Drive,包含参考主体、组合提示词和像素对齐的真实图像。
- 下载地址:https://drive.google.com/drive/folders/1H4VZexNrGFQMEwnPoHHjR3M2JX1Ucw6I?usp=drive_link
数据结构
下载并解压后,目录结构如下:
SIGBenchmark/ ├── huamn/ # 190 张人类单主体参考图像 ├── animal/ # 30 张动物单主体参考图像 ├── object/ # 49 张物体单主体参考图像 ├── outputs/ # 750 张高保真多主体真实图像 ├── prompts.json # 组合提示词和语义描述 └── README.md
搜集汇总
数据集介绍

构建方式
在可控多主体图像生成领域,现有基准因主体规模受限或缺乏像素级真值而难以胜任精细化评估。SIGBenchmark应运而生,其构建过程遵循一套严谨的混合流水线:首先,从科学层次分类体系(涵盖人类、动物、物体、艺术品与虚拟角色)中精挑细选出225个独特主体,确保类别多样性;接着,设计均匀分布且跨类组合的复杂场景,涵盖2至4个主体;随后,利用前沿多模态大语言模型生成初步图像,再经由人类专家逐组验证与修正,最终产出750组超高保真样本对,每组均配有详尽提示词与像素级对齐的真实图像。
特点
该数据集的核心优势在于其卓越的主体多样性与标注精度。225个主体按科学分类体系组织,远超同类基准;复杂场景覆盖2至4个主体的跨类组合,均匀分布避免了类别偏差。更关键的是,750组样本均包含像素级对齐的参考图像与多主体合成真值,无需依赖人类主观打分,即可对语义一致性和结构多样性进行数学上严格的客观量化。这种设计彻底解决了现有基准在精细化评测中的局限性。
使用方法
使用SIGBenchmark时,研究人员可从Google Drive下载完整数据集,其目录结构清晰:单主体参考图像按类别存储于对应文件夹,750张多主体真值图像统一存放于outputs目录,而组合提示词与语义描述则整理在prompts.json文件中。典型应用场景包括训练或评估多主体可控生成模型:模型以参考图像和提示词为输入,生成结果与真值图像进行像素级对比,从而精确量化模型在保持主体身份与融合场景元素方面的能力。数据集采用MIT许可协议,便于学术界与工业界广泛使用。
背景与挑战
背景概述
SIGBenchmark是一个面向多主体可控图像生成领域的创新性基准数据集,由研究团队于近年创建,旨在弥补现有基准如DreamBench、OmniGen2等在主体规模与像素级真值对齐方面的不足。该数据集精心收录了225个不同主体,涵盖人类、动物、物体、艺术品和虚拟化身五大类别,并构建了包含2至4个主体的复杂场景组合。通过融合先进的多模态大语言模型与人类专家验证,SIGBenchmark提供了750组超高保真样本对,包括详细提示与像素级标签,为评估生成图像的语义一致性和结构多样性奠定了严谨的量化基础,对推动可控图像生成技术的发展具有重要意义。
当前挑战
在领域问题层面,SIGBenchmark主要解决多主体可控图像生成中缺乏客观、精准评估指标的挑战,现有基准难以精确量化模型在同时处理多个主体时的语义保真度与空间结构保持能力。在构建过程中,挑战体现在多个方面:确保225个主体在视觉风格、姿态和背景上的高度一致性,跨类别组合(如人与动物、物体与艺术品)时场景的自然性与合理性,以及通过人工审核与自动化流水线协同筛选出750组无瑕疵的高质量图像对,同时维护详尽的语义描述与像素级对齐。
常用场景
经典使用场景
在可控图像生成领域,SIGBenchmark被广泛用作多主体图像生成任务的标准化评估平台。研究者利用其225个涵盖人类、动物、物品、艺术品及虚拟角色等类别的精细主体,结合2至4个主体的跨类别复杂场景组合,系统性地评测模型在语义一致性与结构多样性之间的权衡能力。该基准提供的750组超高保真样本及其像素级真值图像,使得对生成质量的量化评价摆脱了以往依赖主观视觉判断的局限,为算法性能的横向比较提供了坚实依据。
实际应用
在实际应用中,SIGBenchmark支撑的模型可服务于个性化内容创作、虚拟角色生成、电商产品组合展示等场景。例如,广告设计师可以基于用户提供的多个产品图片,利用经该基准验证的模型自动生成和谐美观的群体摆拍图像;游戏开发者能快速融合不同风格的虚拟角色生成宣传物料。其跨类别、多主体的合成能力有效降低了传统方案中因手绘或手动拼接带来的高昂时间成本与风格冲突风险,大幅提升了视觉内容生产的效率与灵活性。
衍生相关工作
SIGBenchmark的出现催生了一系列围绕多主体可控生成模型的改进与拓展工作,包括基于解耦锚定与特征传输的MorphSIG方法,以及针对主题身份保持的细粒度注意力蒸馏技术等。这些工作利用该基准提供的标准化测试集与像素级真值,进行消融实验与性能对比,有力地验证了各自创新模块的有效性。同时,该数据集的结构化层级分类体系也为后续研究提供了构建更复杂、更贴近真实场景的多主体评估范式的示范框架。
以上内容由遇见数据集搜集并总结生成



