image-parametric triplane dataset

Name: image-parametric triplane dataset
Creator: 香港科技大学, 蚂蚁集团, 香港城市大学
Published: 2025-03-26 01:59:03
License: 暂无描述

arXiv2025-03-26 更新2025-03-28 收录

下载链接：

http://arxiv.org/abs/2503.19906v1

下载链接

链接失效反馈

官方服务：

资源简介：

本数据集是一个大规模的4D头像生成数据集，由香港科技大学、蚂蚁集团和香港城市大学共同创建。数据集包含560,000对图像-参数化三角面片(image-parametric triplane)表示，这些数据是通过训练多个4D GAN模型生成的，涵盖了28个不同的领域，如动漫、乐高等。数据集旨在帮助开发一个可以从单个肖像图像生成4D头像的开域模型，支持各种风格和表达。

This is a large-scale 4D avatar generation dataset jointly created by The Hong Kong University of Science and Technology, Ant Group, and City University of Hong Kong. The dataset contains 560,000 pairs of image-parametric triplane representations, which are generated by training multiple 4D GAN models and cover 28 distinct domains such as anime, LEGO, etc. This dataset aims to facilitate the development of open-domain models that can generate 4D avatars from a single portrait image, supporting diverse styles and expressions.

提供机构：

香港科技大学, 蚂蚁集团, 香港城市大学

创建时间：

2025-03-26

搜集汇总

数据集介绍

构建方式

该数据集的构建采用了生成对抗网络（GANs）和扩散模型的协同训练范式。通过利用4D GANs（如Next3D）生成参数化三平面（parametric triplane）作为中间4D表示，并结合2D扩散模型（如Stable Diffusion）增强数据分布的多样性。具体流程包括：1）基于FFHQ数据集，通过SDEdit流程和地标引导的ControlNet将真实域肖像迁移至28个目标域；2）复用原始3DMM网格标签，训练多域4D GANs生成图像-三平面对；3）最终构建包含56万样本的多域图像-三平面配对数据集，涵盖3D卡通、游戏角色等开放域内容。

使用方法

该数据集主要用于训练开放域4D头像生成模型AvatarArtist。使用流程分为三个阶段：首先通过变分自编码器（VAE）将三平面压缩至潜空间；随后采用基于扩散变换器（DiT）的生成模型，以CLIP和DINO特征为条件生成目标三平面；最后通过运动感知跨域渲染器（ViT架构）融合源图像特征与三平面，实现身份保持的运动渲染。实验表明，该数据驱动的流程在VFQH数据集上实现了89.3的FID分数，在跨域重演任务中CLIP分数达0.84，显著优于传统2D/4D方法。

背景与挑战

背景概述

Image-Parametric Triplane Dataset由Ant Group、香港科技大学和香港城市大学的研究团队于2025年提出，旨在解决开放领域4D头像生成的挑战。该数据集作为AvatarArtist模型的核心训练基础，通过结合生成对抗网络（GANs）和扩散模型的优势，实现了从单一肖像图像创建多风格4D头像的能力。其创新性在于采用参数化三平面作为中间4D表示，有效解决了传统方法在跨域数据分布处理上的局限性。该数据集的建立推动了虚拟现实、社交媒体和游戏等领域的高保真数字内容生成，为开放域条件下的动态头像合成设立了新基准。

当前挑战

构建Image-Parametric Triplane Dataset面临双重挑战：在领域问题层面，需突破传统4D方法对多样化数据分布的适应性限制，解决非真实感域（如卡通、雕塑）的头像几何失真与身份保持问题；在技术实现层面，数据生成过程需协调扩散模型与GAN的协同工作——扩散模型负责跨域图像生成时的姿态/表情一致性保持，而GAN需克服模式坍塌问题以生成高质量三平面表示。此外，开发运动感知跨域渲染器以消除网格不准确导致的伪影，以及设计能同时处理28个不同域的统一表征框架，均是数据集构建过程中的关键技术难点。

常用场景

经典使用场景

在虚拟现实、社交媒体和游戏开发领域，image-parametric triplane dataset为4D头像生成提供了关键的数据支持。该数据集通过结合生成对抗网络（GAN）和扩散模型的优势，实现了从单一肖像图像生成高质量4D头像的能力。其经典使用场景包括跨风格的头像动画生成，如将卡通、雕塑或游戏角色的静态图像转化为具有动态表情和姿势的4D模型。

解决学术问题

该数据集有效解决了开放领域4D头像生成中的两大核心问题：一是传统2D方法在头部大幅旋转时出现的几何失真问题，二是4D方法因缺乏多领域数据导致的泛化能力不足。通过构建跨域图像-三平面配对数据集，AvatarArtist模型实现了对任意风格输入的鲁棒处理，为计算机视觉与图形学领域的动态内容生成提供了新的基准范式。

实际应用

在实际应用中，该数据集支撑的AvatarArtist系统已成功应用于虚拟会议、数字娱乐和在线教育场景。其显著优势体现在：仅需单张输入图像即可生成可动画化的4D头像，显著降低了影视级角色制作的门槛；同时支持跨风格迁移，使得历史人物复原、风格化游戏角色开发等应用得以高效实现，为元宇宙内容创作提供了工业化解决方案。

数据集最近研究