canonical human dataset

Name: canonical human dataset
Creator: 香港中文大学·深圳; 未来网络智能研究院
Published: 2026-04-22 01:47:26
License: 暂无描述

arXiv2026-04-22 更新2026-04-23 收录

下载链接：

https://github.com/Taited/ReImagine

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集由香港中文大学·深圳团队构建，是一个包含解耦人脸、服装和足部属性的标准人体数据集，旨在支持可控人体生成的后续研究。数据集通过GPT-4o合成解耦的组件图像，并配套训练了端到端模型以实现属性一致的全人体图像生成。其核心价值在于为姿态-视角可控的视频合成任务提供高质量外观先验，解决了多视角视频数据稀缺条件下联合建模外观与运动的难题。

This dataset was constructed by the team from The Chinese University of Hong Kong, Shenzhen. It is a standard human body dataset containing disentangled facial, clothing, and foot attributes, intended to support follow-up research on controllable human generation. The dataset synthesizes disentangled component images using GPT-4o, and is accompanied by a trained end-to-end model to achieve attribute-consistent full-body image generation. Its core value is to provide high-quality appearance priors for pose- and view-controllable video synthesis tasks, addressing the challenge of joint modeling of appearance and motion when multi-view video data is scarce.

提供机构：

香港中文大学·深圳; 未来网络智能研究院

创建时间：

2026-04-22

原始信息汇总

ReImagine 数据集概述

数据集基本信息

数据集名称：ReImagine
关联项目：ReImagine: Rethinking Controllable High-Quality Human Video Generation via Image-First Synthesis
状态：尚未发布
计划发布日期：2026年5月1日前

数据集描述

该数据集是“ReImagine”框架的组成部分，该框架旨在通过图像优先合成的方法实现可控的高质量人类视频生成。

发布计划与状态

代码、预训练权重和数据集资源将在2026年5月1日之前完全上传并开源。
当前状态：
- 代码发布：未完成
- 预训练模型权重：未完成
- 数据集发布：未完成
- 文档和使用说明：未完成

重要说明

README文件中明确指出，数据集信息部分为占位符，具体公开数据集或下载页面的URL将在发布时提供。

搜集汇总

数据集介绍

构建方式

在可控人体视频生成领域，高质量多视角视频数据的稀缺性构成了显著挑战。为应对这一难题，Canonical Human Dataset的构建遵循了系统化的合成数据生成流程。该流程以MVHumanNet数据集为基础，从中提取标准A姿态下的正反面人体图像，并利用超分辨率模型HYPIR进行画质增强。随后，借助GPT-4o模型对图像进行重光照处理，以消除环境光照影响，生成在标准光照下的人体图像。进一步地，通过YOLO-World进行部件检测与SAM模型进行分割，提取出人脸、服装、鞋履等解耦的部件资产。这些部件资产再经由GPT-4o进行标准化处理，最终经过大规模数据增强与人工筛选，形成了一个包含约1600个身份、具有解耦属性的规范化人体资产数据集。

特点

该数据集的核心特点在于其高度的解耦性与规范化属性。数据集中的每个身份样本均被分解为独立的人脸、服装及鞋履部件，这种结构化的表示方式为可控人体生成任务提供了高度灵活的操控接口。所有资产均在标准A姿态与中性光照条件下生成，有效消除了姿态与光照变化带来的外观歧义，为模型学习提供了清晰、一致的监督信号。此外，数据集构建过程中融合了自动化合成与人工筛选，在保证数据规模的同时，也兼顾了资产的视觉质量与多样性。这种解耦的、规范化的数据形式，为研究界探索基于部件组合的人体外观合成、姿态与视角可控的生成等任务，提供了宝贵的基础资源。

使用方法

该数据集主要服务于可控人体图像与视频生成的研究。在具体应用中，研究者可将解耦的人脸、服装、鞋履资产作为条件输入，与SMPL-X参数化人体姿态及相机视角信息相结合，驱动生成模型合成具有特定外观、姿态与视角的全人体图像。基于该数据集训练的端到端模型，能够实现从解耦部件到完整人体的合成，支持灵活的外观重组与编辑。进一步地，生成的单帧图像序列可输入至预训练的视频扩散模型中进行免训练的时间一致性精炼，从而获得时序连贯的高质量人体视频。该数据集及其配套模型为探索外观先验与时空动态解耦的生成范式，提供了重要的数据支撑与基准工具。

背景与挑战

背景概述

在计算机视觉与图形学领域，可控人体视频生成是虚拟现实、数字内容创作等应用的核心技术。由香港中文大学（深圳）的孙正泰、郑珂如、李承鸿等研究人员于2026年提出的Canonical Human Dataset，旨在解决现有方法在联合建模人体外观、运动与相机视角时面临的挑战。该数据集作为ReImagine框架的组成部分，其核心研究问题在于如何通过解耦外观建模与时间一致性，利用高质量图像生成先验来支持姿态与视角可控的视频合成。该数据集的发布为可控人体生成研究提供了标准化的外观资产，推动了基于图像先验的视频生成范式发展。

当前挑战

该数据集旨在解决可控人体视频生成领域的核心挑战，即如何在有限的多视角视频数据下，实现对人体姿态、外观与相机视角的精确联合控制。构建过程中面临多重困难：首先，获取大规模、高质量且带有精确姿态与多视角标注的人体视频数据极为稀缺，现有数据集如MVHumanNet++在规模与质量上均不足以支撑高质量视频生成模型的训练；其次，数据标准化过程复杂，需从原始多视角数据中提取并规范化人脸、服装、鞋履等解耦组件，涉及超分辨率、重光照、分割与语义编辑等多个步骤，对数据处理的精度与一致性要求极高。

常用场景

经典使用场景

在计算机视觉与图形学领域，可控高保真人体视频生成始终面临多视角数据稀缺的挑战。该数据集通过提供解耦的面部、服装与鞋履标准图像资产，为图像优先的人体视频生成范式奠定了数据基础。其最经典的使用场景在于支持基于SMPL-X参数与标准外观输入的姿态与视角可控人体合成研究，使研究者能够将高质量外观建模与时间一致性学习解耦，从而在有限的多视角视频数据下实现高质量生成。

解决学术问题

该数据集旨在解决人体生成研究中长期存在的关键难题：如何在缺乏大规模高质量多视角视频数据的情况下，实现对人体外观、复杂姿态与相机视角的联合精确控制。传统方法因数据限制，往往在可控性与视觉保真度之间面临权衡。通过提供标准化的解耦外观资产，该数据集使得研究能够专注于学习从结构化几何条件（如SMPL-X）到高质量图像的映射，从而将外观建模的挑战与时间动态学习分离，有效缓解了数据瓶颈对模型性能的制约。

衍生相关工作

该数据集的发布直接支撑了其所属论文ReImagine提出的图像优先生成框架，并催生了相关扩展研究。基于此数据集训练的端到端模型，实现了从解耦组件到完整人体的合成，推动了组合式人体生成的发展。其构建范式也为后续研究提供了启示，例如如何利用大语言模型（GPT-4o）与分割模型（SAM）进行数据清洗与标准化，以构建更高质量的专用数据集。该工作与Human4DiT、MV-Performer等前沿研究形成对话，共同探索在数据约束下实现高保真、强可控人体视频生成的可行路径。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集