MMFace-DiT-Datasets

Hugging Face2026-03-28 更新2026-03-29 收录

下载链接：

https://huggingface.co/datasets/BharathK333/MMFace-DiT-Datasets

下载链接

链接失效反馈

官方服务：

资源简介：

MMFace-DiT 数据集是一个用于多模态人脸生成的高质量基准数据集，已被 CVPR 2026 接受。该数据集提供了必要的空间（如语义分割掩码和边缘草图）和语义（如视觉语言模型生成的丰富描述）配对数据，以实现高保真、可控的人脸合成。数据集包含以下主要组件：1) Celeb_Dataset/：包含 CelebA-HQ 的 19 类语义分割掩码和通过 HED/Canny 提取的精确边缘草图；2) Celeb_Captions_Final/：包含 30,000 多条由 InternVL3 和 Qwen3 生成的丰富描述；3) FFHQ/：包含 Flickr-Faces-HQ 数据集的高分辨率语义掩码和边缘草图；4) FFHQ_Captions_Final/：包含 70,000 多条详细描述面部特征、配饰、光照和背景的自然语言描述。数据集结构设计为即插即用，支持通过 PyTorch 加载图像-掩码-描述三元组。原始 RGB 图像需从 CelebA-HQ 和 FFHQ 的官方仓库下载。

创建时间：

2026-03-28

原始信息汇总

MMFace-DiT 数据集概述

基本信息

数据集名称: MMFace-DiT Dataset: Multimodal Face Generation Benchmarks
发布状态: 已发表于 CVPR 2026
许可证: MIT
主要任务类别: 图像到图像、文本到图像
核心标签: 人脸生成、CVPR2026、多模态、CelebA-HQ、FFHQ

数据集构成与内容

本数据集为多模态人脸生成提供必要的空间（掩码、草图）和语义（视觉语言模型增强描述）配对数据，以实现高保真、可控的人脸合成。

1. CelebA-HQ 相关数据

Celeb_Dataset/:
- 掩码: 为 CelebA-HQ 提供的 19 类语义分割图。
- 草图: 通过 HED/Canny 提取的精确边缘图草图，用于细粒度结构控制。
Celeb_Captions_Final/: 包含 30,000 多条使用 InternVL3 和 Qwen3 生成的、针对 CelebA-HQ 的视觉语言模型增强描述性文本。

2. FFHQ 相关数据

FFHQ/:
- 掩码: 为 Flickr-Faces-HQ (FFHQ) 数据集提供的高分辨率语义掩码。
- 草图: 与 FFHQ 对应的边缘图草图。
FFHQ_Captions_Final/: 包含 70,000 多条详细描述面部特征、配饰、光照和背景的自然语言文本。

重要说明

本仓库仅提供多模态条件映射图和文本描述。为遵守原始许可证，CelebA-HQ 和 FFHQ 的原始 RGB 图像需从其官方仓库下载：

CelebA-HQ 原始图像: https://github.com/tkarras/progressive_growing_of_gans
FFHQ 原始图像: https://github.com/NVlabs/ffhq-dataset

使用方式

项目结构

为与 MMFace-DiT 代码库兼容，建议按以下结构组织项目根目录：

MMFace-DiT/ └── Datasets/ ├── Celeb_Dataset/ │ └── Celeb_Final/ (masks, sketches) ├── Celeb_Captions_Final/ ├── FFHQ/ │ ├── Masks_Colored_1024/ │ └── sketches/ └── FFHQ_Captions_Final/

数据加载示例

可使用 PyTorch 加载图像-掩码-描述三元组，具体代码片段见数据集 README。

引用

如果本数据集对您的研究有帮助，请引用我们的 CVPR 2026 论文： bibtex @inproceedings{krishnamurthy2026mmfacedit, title = {MMFace-DiT: A Dual-Stream Diffusion Transformer for High-Fidelity Multimodal Face Generation}, author = {Krishnamurthy, Bharath and Rattani, Ajita}, booktitle = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)}, year = {2026} }

搜集汇总

数据集介绍

构建方式

在计算机视觉领域，高质量的人脸生成任务日益依赖于多模态数据的协同。MMFace-DiT数据集的构建过程体现了这一趋势，它基于两个经典的人脸数据集CelebA-HQ和FFHQ进行扩展。通过自动化工具提取了19类语义分割掩码和基于HED/Canny算法的精细边缘草图，为图像提供了结构化的空间控制信息。同时，利用先进的视觉语言模型InternVL3和Qwen3，为每张图像生成了富含细节的文本描述，涵盖了面部特征、配饰、光照及背景等多维度语义信息，最终形成了超过10万条图像-掩码-草图-文本的四元组数据。

使用方法

为便于研究与应用，数据集采用了即插即用的组织结构。用户需首先从官方渠道获取CelebA-HQ和FFHQ的原始图像，并将本数据集提供的多模态条件数据按预设的目录结构放置。在代码层面，可通过简单的文件路径组合加载图像、掩码、草图及文本描述，形成训练或推理所需的数据三元组。数据集与配套的MMFace-DiT代码库深度集成，旨在降低使用门槛，使研究者能够快速构建数据管道，专注于模型设计与算法创新。

背景与挑战

背景概述

在计算机视觉领域，高保真、可控的人脸生成一直是研究的前沿课题。MMFace-DiT数据集由研究人员Bharath Krishnamurthy和Ajita Rattani于2026年提出，并已在CVPR会议上发表。该数据集旨在通过整合多模态条件信息，如语义分割掩码、边缘草图以及由先进视觉语言模型生成的丰富文本描述，来推动基于扩散变换器的人脸合成技术。其核心研究问题聚焦于如何精确融合空间结构与语义信息，以实现对生成人脸属性与姿态的细粒度控制，从而显著提升生成图像的真实性与多样性，对推动人脸生成与编辑领域的发展具有重要影响力。

当前挑战

MMFace-DiT数据集所针对的领域挑战在于传统人脸生成方法往往难以同时实现高保真度与多模态可控性，例如在保持身份一致性的前提下，根据文本描述或结构草图精确调整面部特征。在构建过程中，数据集面临多重挑战：一是需要从CelebA-HQ和FFHQ等原始数据集中提取高质量的空间标注，如19类语义分割掩码和精细边缘草图，这涉及复杂的图像处理与标注流程；二是生成语义丰富的文本描述，需利用InternVL3和Qwen3等大型视觉语言模型进行自动化标注，确保描述准确涵盖面部细节、配饰及光照等属性，同时避免引入噪声或偏差。

常用场景

经典使用场景

在计算机视觉领域，人脸生成技术正朝着高保真与可控性方向演进。MMFace-DiT数据集通过提供CelebA-HQ和FFHQ图像对应的语义分割掩码、边缘草图以及视觉语言模型增强的详细文本描述，为多模态条件人脸合成建立了基准。该数据集最经典的使用场景是训练扩散变换器模型，实现基于文本、掩码或草图等多种输入条件的精细化人脸图像生成，推动可控生成模型在复杂场景下的性能评估与优化。

解决学术问题

该数据集旨在解决多模态人脸生成中条件控制精度不足与语义对齐困难等核心学术问题。通过集成空间结构信息（如掩码和草图）与深层语义描述（VLM增强标题），它有效弥合了低级视觉特征与高级语义概念之间的鸿沟。其意义在于为研究者提供了一个标准化、高质量的基准，以系统探索多模态条件如何协同提升生成图像的保真度、多样性和可控性，从而推动生成式人工智能在细粒度视觉内容创作领域的理论进展。

实际应用

在实际应用层面，MMFace-DiT数据集支撑的技术可广泛应用于数字内容创作、虚拟形象定制、影视特效制作以及隐私保护的人脸匿名化等领域。例如，在娱乐产业中，艺术家能够通过输入文本描述或简单草图，快速生成符合特定角色设定的人脸图像；在安全领域，该技术可辅助生成合成数据以增强人脸识别系统的鲁棒性。这些应用凸显了多模态可控生成技术在提升创作效率与拓展技术边界方面的实用价值。

数据集最近研究