多模态细粒度ID数据集

github2024-12-02 更新2025-01-01 收录

下载链接：

https://github.com/newgenai79/ConsistentID

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含50000个多模态细粒度ID数据，用于训练FacialEncoder模型，支持个性化照片、性别/年龄变化和身份混淆等常见功能。

This dataset contains 50,000 multimodal fine-grained identity data samples, which is intended for training the FacialEncoder model and supports common functions such as personalized photo processing, gender/age manipulation, and identity obfuscation.

创建时间：

2024-12-02

原始信息汇总

ConsistentID 数据集概述

数据集简介

ConsistentID 是一个用于肖像生成的多模态细粒度身份保持数据集。该数据集通过引入 FaceParsing 和 FaceID 信息到 Diffusion 模型中，实现了极高的身份保真度，同时不牺牲多样性和文本可控性。

关键特性

高身份保真度：在保持多样性和文本可控性的同时，实现极高的身份保真度。
FaceParsing 和 FaceID 信息：将 FaceParsing 和 FaceID 信息引入 Diffusion 模型。
快速定制：无需额外的 LoRA 训练，可在几秒内完成定制。
适配器功能：可作为适配器与其他基础模型协作，与社区中的 LoRA 模块一起使用。

数据集结构

数据集包含以下文件结构：

├── data | ├── JSON_all.json | ├── resize_IMG # 图像 | ├── all_faceID # FaceID | └── parsing_mask_IMG # 解析掩码

数据准备

数据集准备要求：

图像文件路径存储在 JSON_all.json 文件中。
图像文件存储在 resize_IMG 目录中。
FaceID 信息存储在 all_faceID 目录中。
解析掩码存储在 parsing_mask_IMG 目录中。

模型训练与使用

训练：运行 train_bash.sh 脚本进行模型训练。
推理：运行 infer.py 脚本进行推理。
修复与控制：运行 inpaint_demo.py 和 controlnet_demo.py 进行修复与控制推理。

模型权重

模型权重可通过以下方式获取：

通过 Hugging Face Hub 自动下载。
通过 Google Drive 或百度网盘手动下载。

引用

如果使用该数据集，请引用以下论文： bibtex @article{huang2024consistentid, title={ConsistentID: Portrait Generation with Multimodal Fine-Grained Identity Preserving}, author={Huang, Jiehui and Dong, Xiao and Song, Wenhui and Li, Hanhui and Zhou, Jun and Cheng, Yuhao and Liao, Shutao and Chen, Long and Yan, Yiqiang and Liao, Shengcai and others}, journal={arXiv preprint arXiv:2404.16771}, year={2024} }

免责声明

该项目旨在积极影响 AI 驱动的图像生成领域。用户可自由使用该工具创建图像，但需遵守当地法律并负责任地使用。开发者对用户的潜在滥用行为不承担任何责任。

搜集汇总

数据集介绍

构建方式

多模态细粒度ID数据集的构建过程基于对现有面部识别技术的深入研究和创新。数据集的核心在于将FaceParsing和FaceID信息整合到Diffusion模型中，以实现更高精度的身份保持。具体而言，研究团队重构了包含50000个样本的多模态细粒度ID数据集，用于训练FacialEncoder模型。该数据集不仅支持个性化照片生成，还能实现性别、年龄变化及身份混淆等常见功能。此外，团队还定义了统一的测量基准FGIS，用于评估细粒度身份保持的效果，并构建了相应的模型基线。

特点

多模态细粒度ID数据集在面部生成任务中展现出显著的优势。其核心特点在于极高的ID保真度，同时不牺牲生成图像的多样性和文本可控性。通过引入FaceParsing和FaceID信息，数据集能够在不进行额外LoRA训练的情况下，实现秒级快速定制。此外，该数据集可作为Adapter与其他基础模型协同工作，进一步提升模型的灵活性和应用范围。实验表明，ConsistentID在面部个性化任务中达到了SOTA效果，为细粒度面部个性化研究开辟了新的方向。

使用方法

多模态细粒度ID数据集的使用方法简洁高效。用户需确保工作环境为项目根目录，并通过运行convert_weights.py脚本高效保存权重。推理阶段，用户可通过infer.py脚本进行图像生成，或使用inpaint_demo和controlnet_demo脚本实现修复与控制功能。模型权重可通过Hugging Face Hub自动下载，也可从Google Drive或百度网盘手动获取。此外，数据集支持与ComfyUI、LCM等工具的集成，以加速推理并简化部署流程。

背景与挑战

背景概述

多模态细粒度ID数据集由JackAILab团队于2024年发布，旨在解决肖像生成中的细粒度身份保持问题。该数据集的核心研究问题在于如何在生成肖像时保持高保真度的身份特征，同时不牺牲多样性和文本可控性。研究人员通过引入FaceParsing和FaceID信息，结合Diffusion模型，构建了一个包含50000个样本的多模态数据集，用于训练FacialEncoder模型。该数据集在AIGC领域具有重要影响力，推动了细粒度面部个性化任务的研究，并为未来的相关研究提供了基准和方向。

当前挑战

多模态细粒度ID数据集在构建和应用过程中面临多重挑战。首先，如何在生成肖像时精确捕捉并保持细粒度的身份特征，同时确保生成图像的多样性和文本可控性，是一个复杂的技术难题。其次，数据集的构建需要处理大量的多模态数据，包括图像、FaceID和FaceParsing信息，这对数据的标注、对齐和预处理提出了高要求。此外，模型的训练和优化需要高效的算法和计算资源，以确保在保持身份一致性的同时，提升生成图像的质量和分辨率。这些挑战共同构成了该数据集在研究和应用中的核心难点。

常用场景

经典使用场景

多模态细粒度ID数据集在肖像生成领域具有广泛的应用，特别是在需要高保真身份信息的场景中。该数据集通过引入FaceParsing和FaceID信息，能够在生成肖像时保持极高的身份一致性，同时不牺牲多样性和文本可控性。这一特性使得该数据集在个性化照片生成、性别/年龄变化以及身份混淆等任务中表现出色。

解决学术问题

多模态细粒度ID数据集解决了肖像生成中身份信息保真度不足的学术问题。传统方法在整体身份保持上表现有限，而该数据集通过细粒度的面部特征编码，显著提升了身份一致性。此外，该数据集还定义了统一的测量基准FGIS，为细粒度身份保持模型的研究提供了标准化的评估框架，推动了该领域的进一步发展。

衍生相关工作

多模态细粒度ID数据集衍生了一系列相关研究工作，包括IPAdapter、FastComposer、PhotoMaker和InstantID等。这些工作在该数据集的基础上进一步优化了肖像生成的身份保持能力，推动了细粒度身份保持技术的发展。此外，该数据集还启发了更多关于面部特征编码和个性化生成的研究，为未来的学术探索提供了新的方向。

以上内容由遇见数据集搜集并总结生成