IMIG-Dataset

github2025-10-29 更新2025-10-30 收录

下载链接：

https://github.com/nenhang/IMIG-Source

下载链接

链接失效反馈

官方服务：

资源简介：

IMIG-Dataset是一个大规模、结构化的数据集，专为身份一致的图像引导多实例生成任务设计，具有渐进式难度级别

The IMIG-Dataset is a large-scale, structured dataset designed specifically for identity-consistent image-guided multi-instance generation tasks, featuring progressive difficulty levels.

创建时间：

2025-10-19

原始信息汇总

IMIG-Dataset 概述

数据集简介

IMIG-Dataset是一个大规模结构化数据集，专为身份一致性的图像引导多实例生成任务设计。该数据集具有渐进式难度级别，是论文《ContextGen: Contextual Layout Anchoring for Identity-Consistent Multi-Instance Generation》的官方实现。

数据集结构

数据集包含三个子数据集：

基础子数据集
复杂子数据集
灵活子数据集（支持2-5个主体生成）

技术依赖

图像生成模型

FLUX系列模型
DreamO模型
MOSAIC模型

工具组件

GroundingDINO：目标检测
DeRIS：图像分割

环境配置

需要创建两个独立的conda环境：

imig-gen环境：用于FLUX系列和DreamO模型，要求torch ~= 2.6
imig-tool环境：用于DeRIS工具，要求torch ~= 2.0和CUDA 11.8

数据生成流程

提示词生成

基础与复杂子数据集：src/generate_prompts.py
灵活子数据集：src/generate_composite_prompts.py

数据集生成

基础与复杂子数据集：bash ./scripts/generate_dataset.sh
灵活子数据集：bash ./scripts/generate_composite_dataset.sh

自定义功能

参数调整

支持修改推理步数、图像尺寸、过滤阈值等参数

提示模板

可自定义GENERATION_RULES和EXAMPLE_FORMATS变量创建个性化提示模板

模型替换

支持替换图像生成模型，需在src/model_api目录中实现相应函数

引用信息

bibtex @article{xu2025contextgencontextuallayoutanchoring, title={ContextGen: Contextual Layout Anchoring for Identity-Consistent Multi-Instance Generation}, author={Ruihang Xu and Dewei Zhou and Fan Ma and Yi Yang}, year={2025}, eprint={2510.11000}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2510.11000}, }

搜集汇总

数据集介绍

构建方式

在计算机视觉领域，身份一致性多实例生成任务对数据质量提出了极高要求。IMIG-Dataset采用模块化构建流程，通过FLUX系列模型和DreamO等先进生成工具创建基础图像素材，结合GroundingDINO与DeRIS实现精准的实例检测与分割。该数据集通过分层生成策略构建基础、复杂与灵活三个子集，每个子集均采用渐进式难度设计，并配备自动化质量过滤机制确保数据可靠性。

使用方法

针对研究者的实际应用需求，该数据集提供了清晰的使用路径。用户可通过分步执行脚本启动数据生成流程，其中提示词生成模块支持深度定制，允许研究者根据具体任务调整生成规则。数据集生成过程采用容错恢复机制，支持中断后继续运行。对于高级用户，代码库预留了模型接口替换空间，可灵活集成最新的生成模型，同时提供编辑模板自定义功能，满足不同研究场景的个性化需求。

背景与挑战

背景概述

随着生成式人工智能技术的飞速发展，多实例图像生成任务逐渐成为计算机视觉领域的前沿研究方向。IMIG-Dataset作为一项大规模结构化数据集，由研究团队于2025年提出，旨在解决身份一致性图像引导的多实例生成问题。该数据集通过渐进式难度设计，为探索复杂场景下的对象身份保持与空间布局协调提供了重要基准，其核心研究聚焦于如何在多对象共现场景中维持实例身份的视觉一致性，对推动可控图像生成技术的发展具有显著影响力。

当前挑战

在身份一致性多实例生成领域，核心挑战在于平衡对象身份保持与场景自然度的矛盾，同时解决多对象空间布局的合理性问题。数据集构建过程中面临双重技术障碍：一方面需要协调不同深度学习框架的版本冲突，如FLUX系列模型与GroundingDINO等工具对CUDA和PyTorch版本的兼容性要求；另一方面需设计复杂的技术流程链，涵盖图像生成、实例分割、标注过滤等多个环节的协同工作，任何步骤的误差累积都会影响最终数据质量。

常用场景

经典使用场景

在计算机视觉领域，多实例生成任务常面临身份一致性保持的挑战。IMIG-Dataset通过结构化布局锚定机制，为图像引导的多实例生成提供了标准化测试平台。该数据集包含基础、复杂与灵活三个子集，分别对应不同难度层级的生成场景，研究者可通过控制实例数量与空间关系，系统评估模型在保持身份特征一致性的生成能力。

解决学术问题

该数据集有效解决了多实例生成中身份特征漂移、空间布局失调等核心学术难题。通过引入上下文布局锚定技术，显著提升了生成图像中多个实例的身份一致性，为量化评估生成模型的构图能力提供了基准。其渐进式难度设计使得研究者能够分层探究模型在简单到复杂场景下的性能边界，推动了生成式人工智能在细粒度控制方向的理论发展。

实际应用

在电商商品展示、虚拟场景构建等实际场景中，IMIG-Dataset展现出重要应用价值。基于其生成的标准化数据，可训练模型自动生成包含多个特定商品的宣传图像，或构建具有一致角色身份的游戏场景。该数据集支持的可控生成特性，为广告设计、数字内容创作等领域提供了高效的内容生产解决方案，显著降低了多元素图像合成的技术门槛。

数据集最近研究