MultiID-2M

Name: MultiID-2M
Creator: 复旦大学, StepFun
Published: 2025-10-17 01:59:54
License: 暂无描述

arXiv2025-10-17 更新2025-11-05 收录

下载链接：

https://hf-mirror.com/datasets/WithAnyone/MultiID-2M

下载链接

链接失效反馈

官方服务：

资源简介：

MultiID-2M是一个大规模的多人数据集，包含50万个群组照片，每个照片中包含1至5位可识别的明星。对于每位明星，都提供了数百张个人照片作为配对的参考，涵盖了不同的表情、发型和视角。此外，还包括150万个没有参考的群组照片。MultiID-2M数据集通过一个四阶段的流程构建，包括收集单身份图像、检索候选群组照片、分配身份和自动过滤和注释。该数据集旨在支持多身份图像生成的预训练和评估。

MultiID-2M is a large-scale multi-person dataset containing 500,000 group photos, each with 1 to 5 identifiable celebrities. For each celebrity, hundreds of personal photos are provided as paired references covering diverse expressions, hairstyles and viewing angles. Additionally, it includes 1.5 million unpaired group photos. The MultiID-2M dataset is constructed via a four-stage pipeline, which encompasses collecting single-identity images, retrieving candidate group photos, assigning identities, and conducting automatic filtering and annotation. This dataset is designed to support pre-training and evaluation for multi-identity image generation.

提供机构：

复旦大学, StepFun

创建时间：

2025-10-17

搜集汇总

数据集介绍

构建方式

在身份一致性图像生成领域，数据稀缺性长期制约着模型性能的突破。MultiID-2M通过四阶段流水线构建：首先从网络收集单身份图像，通过ArcFace嵌入聚类建立包含约3000个身份、各含400张参考图像的纯净数据库；继而采用多名称组合检索策略获取群体照片，运用余弦相似度阈值匹配身份特征；随后通过自动化过滤流程剔除低质量样本，并融合美学评分、OCR水印检测与大语言模型标注技术；最终形成包含50万张带标注群体图像与150万张未标注图像的立体化数据集。

使用方法

针对扩散模型在身份定制任务中的复制粘贴缺陷，该数据集支撑起四阶段渐进式训练范式：初始阶段采用固定提示词进行重建预训练，夯实身份条件生成基础；第二阶段引入完整文本描述，实现身份学习与语义控制的协同进化；关键第三阶段运用配对调优策略，随机替换参考图像与生成目标，强制模型依赖高层身份表征而非低层复制；最终通过精选高质量子集进行风格化微调，在保持身份一致性的同时提升视觉美感与风格适应性。

背景与挑战

背景概述

MultiID-2M数据集于2025年由复旦大学与StepFun联合发布，旨在解决多身份图像生成中的关键瓶颈。该数据集聚焦于可控身份一致性生成领域，通过构建包含50万组多人图像及150万未配对图像的大规模资源，为每个身份提供数百张涵盖表情、姿态与光照变化的参考图像。其创新性在于首次系统性地解决了传统方法因依赖单身份重建训练而导致的复制粘贴伪影问题，推动了生成模型在身份保真度与自然变异平衡方面的研究进展。

当前挑战

该数据集主要应对两大挑战：在领域问题层面，需突破多身份生成中身份保真度与可控性的固有矛盾，传统方法因缺乏成对参考数据而难以在保持身份一致性的同时实现姿态、表情的自然调整；在构建过程中，面临大规模多人图像的身份标注难题，需通过ArcFace嵌入聚类与余弦相似度阈值匹配来实现跨图像的精准身份关联，同时需克服图像质量筛选、水印去除及语义标注等数据清洗挑战。

常用场景

经典使用场景

在可控图像生成领域，MultiID-2M数据集通过提供包含1-5位可识别个体的50万组图及对应参考图像，为多身份生成任务建立了标准化实验环境。其典型应用场景包括训练扩散模型实现姿态、表情的精确控制，同时保持身份特征的一致性，有效解决了传统方法在群体照片生成中面临的身份混淆问题。

解决学术问题

该数据集突破了单身份重建训练的局限性，通过构建包含多样化参考图像的配对数据集，显著缓解了生成模型中的‘复制-粘贴’伪影问题。其提出的对比身份损失函数与标准化评估协议MultiID-Bench，为量化身份保真度与生成多样性之间的平衡关系提供了理论框架，推动了可控生成领域的度量标准革新。

实际应用

基于MultiID-2M训练的WithAnyone模型已在影视制作、虚拟社交等领域实现落地，能够根据文本描述生成包含特定人物的群体场景。其支持对多人合影中的每个个体进行独立属性编辑，在数字内容创作、个性化广告设计等场景中展现出精准的身份控制能力，显著提升了生成内容的实用价值。

数据集最近研究