MICo-150K

github2025-12-09 更新2025-12-10 收录

下载链接：

https://github.com/A113N-W3I/MICo-150K

下载链接

链接失效反馈

官方服务：

资源简介：

MICo-150K是一个大规模、高质量的多图像合成（MICo）数据集，专注于从多个参考输入合成连贯且身份一致的图像。该数据集涵盖了7个代表性的MICo任务，通过精心挑选的源图像和多样化的合成提示构建。数据集使用强大的专有模型合成，并通过人工循环过滤进行细化，确保高保真和身份一致性。此外，还引入了一个分解与重组（De&Re）子集，支持真实和合成的组合。

MICo-150K is a large-scale, high-quality multi-image synthesis (MICo) dataset dedicated to synthesizing coherent and identity-consistent images from multiple reference inputs. This dataset covers seven representative MICo tasks, constructed using carefully selected source images and diverse synthesis prompts. It is synthesized with a powerful proprietary model and refined via iterative human filtering to ensure high fidelity and identity consistency. Additionally, a decomposition and recombination (De&Re) subset is introduced to support combinations of real and synthetic images.

创建时间：

2025-11-13

原始信息汇总

MICo-150K 数据集概述

基本信息

数据集名称：MICo-150K
官方论文：MICo-150K: A Comprehensive Dataset for Multi-Image Composition
官方项目页面：https://mico-150k.github.io/
GitHub仓库地址：https://github.com/A113N-W3I/MICo-150K

数据集简介

MICo-150K 是一个用于可控图像生成中**多图像组合（Multi-Image Composition, MICo）**的大规模、高质量数据集。该数据集专注于从多个参考输入合成连贯且身份一致的图像，旨在解决因缺乏合适训练数据而长期存在的挑战。

关键特性与构成

任务覆盖：涵盖 7 个具有代表性的 MICo 任务。
数据构建：数据由精心策划的源图像和多样化的组合提示构建而成。
合成与精炼：使用强大的专有模型合成，并通过**人机回环过滤（human-in-the-loop filtering）**进行精炼，确保了高保真度和身份一致性。
特殊子集：引入了**分解与重组（Decomposition-and-Recomposition, De&Re）**子集，其中真实世界的复杂图像被分解为组件并重新组合，支持真实和合成的组合。

评估基准与指标

MICo-Bench：发布了一个包含 1000 个精选测试案例的评估基准。
评估指标：提出了专为 MICo 任务定制的**加权参考 VIEScore（Weighted-Ref-VIEScore）**新指标。

提供的基线模型

提供了强基线模型，包括 Qwen-MICo，该模型在支持任意多图像输入的同时，展示了与专有模型相竞争的性能。

开源计划

MICo-150K 数据集第一部分（待发布）
MICo-150K 数据集第二部分（经过仔细后处理的子集，待发布）
微调后的模型检查点（待发布）
MICo-Bench（待发布）
训练和推理指南（已发布）
技术报告（已发布）

使用指南

训练指南：详见 TRAIN.md
推理指南：详见 INFER.md

引用

如需引用，请使用提供的 BibTeX 条目。

联系与支持

如有问题或建议，可通过 GitHub 仓库的 issue 或 discussion 功能提出。

搜集汇总

数据集介绍

构建方式

在可控图像生成领域，多图像组合任务长期受限于高质量训练数据的匮乏。MICo-150K数据集的构建过程体现了严谨的工程化设计，其核心方法在于通过精心筛选的源图像与多样化的组合提示词，利用强大的专有模型进行初步合成。为确保生成样本的保真度与身份一致性，研究团队引入了人机协同过滤机制，对合成结果进行精细化筛选与优化。此外，数据集还包含一个独特的分解与重组子集，该子集将现实世界中的复杂图像分解为多个组件，并基于这些组件进行重新组合，从而同时支持真实与合成场景下的多图像组合研究。

特点

MICo-150K数据集以其规模宏大与质量卓越而著称，涵盖了七个具有代表性的多图像组合任务，为相关研究提供了广泛的任务覆盖。数据集不仅提供了海量的合成样本，还通过人工参与的后期精炼流程，确保了样本在视觉连贯性与身份一致性方面达到高标准。其引入的分解与重组子集进一步拓展了数据集的边界，为模型处理真实图像组件提供了宝贵的训练资源。为了推动该领域的系统性评估，数据集配套发布了包含一千个精选测试案例的MICo-Bench基准，并提出了专门针对多图像组合任务设计的加权参考视觉一致性评估指标，为客观衡量模型性能奠定了坚实基础。

使用方法

为促进多图像组合技术的研发与应用，MICo-150K提供了清晰的使用路径。研究者可依据官方发布的训练指南，利用该数据集对社区开源模型进行微调，以提升其在多参考图像输入下的组合生成能力。在推理阶段，配套的推断指南详细说明了如何利用训练好的模型处理任意的多图像输入，以生成身份一致且语义连贯的新图像。数据集本身的结构化设计，配合其基准测试集与专用评估指标，使得研究者能够便捷地开展模型训练、性能验证与横向比较，从而有效推动可控图像生成领域的前沿探索。

背景与挑战

背景概述

在可控图像生成领域，多图像组合任务旨在从多个参考输入中合成具有连贯性与身份一致性的新图像，这一研究方向长期受限于高质量训练数据的匮乏。MICo-150K数据集于2025年由相关研究团队正式发布，其核心研究问题聚焦于构建一个大规模、高质量的多图像组合数据集，以推动生成模型在复杂跨图像语义融合与身份保持方面的能力发展。该数据集涵盖了七种代表性的多图像组合任务，通过精心筛选的源图像与多样化组合提示构建而成，并引入了人机协同过滤机制确保数据保真度。MICo-150K的推出为多图像组合研究提供了关键的数据基础，显著促进了该子领域在模型训练、评估与基准测试方面的系统性进展。

当前挑战

多图像组合任务本身面临的核心挑战在于如何实现跨图像的语义连贯性与身份一致性，即模型需同时理解多个参考图像的视觉内容并将其和谐地融合至新图像中，这对生成模型的跨模态理解与细粒度控制能力提出了极高要求。在数据集构建过程中，挑战主要源于高质量多图像组合对的稀缺性，研究团队需通过强私有模型合成初始数据，并借助人机协同流程进行精细过滤，以确保合成图像在视觉质量与身份保持上达到标准。此外，为支持真实与合成场景的全面评估，构建分解与重组子集时还需解决从复杂真实图像中准确分离语义组件并合理重组的技术难题。

常用场景

经典使用场景

在可控图像生成领域，多图像组合任务旨在从多个参考图像中合成具有一致性和连贯性的新图像。MICo-150K数据集为此提供了大规模、高质量的标注数据，其经典使用场景包括训练和评估多图像组合模型。研究人员利用该数据集，能够系统地探索模型在融合多源视觉信息时的表现，例如将不同人物的面部特征、服饰风格或场景元素进行自然整合，生成符合语义描述且身份一致的合成图像。

解决学术问题

长期以来，多图像组合研究因缺乏合适的训练数据而面临挑战。MICo-150K通过提供涵盖七个代表性任务的大规模数据集，有效解决了数据稀缺问题。该数据集支持对模型身份一致性保持能力、跨图像语义连贯性以及复杂条件可控生成等核心学术问题的深入探究。其引入的Decomposition-and-Recomposition子集进一步拓展了研究边界，使得模型不仅能处理合成数据，还能应对真实世界图像的分解与重组，为多图像组合的理论与方法学发展奠定了坚实基础。

衍生相关工作

围绕MICo-150K数据集，已衍生出一系列重要的研究工作。其中最突出的包括其配套的评估基准MICo-Bench以及专为多图像组合任务设计的加权参考图像视觉一致性评分指标Weighted-Ref-VIEScore。同时，基于该数据集训练的开源基线模型Qwen-MICo，展示了与专有模型相竞争的性能，并支持任意多图像输入，为社区提供了可复现和进一步优化的起点。这些工作共同构建了一个从数据、评估到模型的完整研究生态，显著推动了多图像组合领域的开源化与标准化进程。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集