MMFace-DiT-Datasets
收藏MMFace-DiT 数据集概述
基本信息
- 数据集名称: MMFace-DiT Dataset: Multimodal Face Generation Benchmarks
- 发布状态: 已发表于 CVPR 2026
- 许可证: MIT
- 主要任务类别: 图像到图像、文本到图像
- 核心标签: 人脸生成、CVPR2026、多模态、CelebA-HQ、FFHQ
数据集构成与内容
本数据集为多模态人脸生成提供必要的空间(掩码、草图)和语义(视觉语言模型增强描述)配对数据,以实现高保真、可控的人脸合成。
1. CelebA-HQ 相关数据
Celeb_Dataset/:- 掩码: 为 CelebA-HQ 提供的 19 类语义分割图。
- 草图: 通过 HED/Canny 提取的精确边缘图草图,用于细粒度结构控制。
Celeb_Captions_Final/: 包含 30,000 多条使用 InternVL3 和 Qwen3 生成的、针对 CelebA-HQ 的视觉语言模型增强描述性文本。
2. FFHQ 相关数据
FFHQ/:- 掩码: 为 Flickr-Faces-HQ (FFHQ) 数据集提供的高分辨率语义掩码。
- 草图: 与 FFHQ 对应的边缘图草图。
FFHQ_Captions_Final/: 包含 70,000 多条详细描述面部特征、配饰、光照和背景的自然语言文本。
重要说明
本仓库仅提供多模态条件映射图和文本描述。为遵守原始许可证,CelebA-HQ 和 FFHQ 的原始 RGB 图像需从其官方仓库下载:
- CelebA-HQ 原始图像: https://github.com/tkarras/progressive_growing_of_gans
- FFHQ 原始图像: https://github.com/NVlabs/ffhq-dataset
使用方式
项目结构
为与 MMFace-DiT 代码库兼容,建议按以下结构组织项目根目录:
MMFace-DiT/ └── Datasets/ ├── Celeb_Dataset/ │ └── Celeb_Final/ (masks, sketches) ├── Celeb_Captions_Final/ ├── FFHQ/ │ ├── Masks_Colored_1024/ │ └── sketches/ └── FFHQ_Captions_Final/
数据加载示例
可使用 PyTorch 加载图像-掩码-描述三元组,具体代码片段见数据集 README。
相关资源
- 项目主页: https://vcbsl.github.io/MMFaceDiT_Project_Page/
- 代码仓库: https://github.com/Bharath-K3/MMFace-DiT
- 模型仓库: https://huggingface.co/BharathK333/MMFace-DiT-Models
- 演示空间: https://huggingface.co/spaces/BharathK333/MMFace-DiT
引用
如果本数据集对您的研究有帮助,请引用我们的 CVPR 2026 论文: bibtex @inproceedings{krishnamurthy2026mmfacedit, title = {MMFace-DiT: A Dual-Stream Diffusion Transformer for High-Fidelity Multimodal Face Generation}, author = {Krishnamurthy, Bharath and Rattani, Ajita}, booktitle = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)}, year = {2026} }




