RenderMe-360

arXiv2023-05-23 更新2024-08-06 收录

下载链接：

http://arxiv.org/abs/2305.13353v1

下载链接

链接失效反馈

官方服务：

资源简介：

RenderMe-360是一个全面的4D人头数据集，旨在推动头部头像研究的进展。它包含大量的数据资产，有超过2.43亿个完整的头部帧和来自500个不同身份的超过80万个视频序列，这些序列由同步多视角摄像机以30 FPS捕获。这是一个大规模的头部头像数字图书馆，具有三个关键属性：1) 高保真度：所有主体由60个同步的、高分辨率的2K摄像机在360度范围内捕获。2) 高多样性：收集的主体年龄、时代、种族和文化各异，提供具有独特风格的外貌和几何形状的丰富材料。此外，每个主体被要求执行各种动作，如表情和头部旋转，进一步扩展了资产的丰富性。3) 丰富的注释：我们提供不同粒度的注释：摄像机参数、抠图、扫描、2D/3D面部地标、FLAME拟合和文本描述。

RenderMe-360 is a comprehensive 4D human head dataset developed to advance head avatar research. It includes a massive collection of data assets: over 243 million complete head frames and more than 800,000 video sequences from 500 distinct identities, captured by synchronized multi-view cameras at 30 FPS. This is a large-scale digital library for head avatars, with three core characteristics: 1) High Fidelity: All subjects are captured using 60 synchronized, high-resolution 2K cameras across a 360-degree range. 2) High Diversity: The collected subjects vary in age, era, ethnicity, and culture, providing abundant resources with unique stylistic appearances and geometric shapes. Additionally, each subject was asked to perform various actions such as facial expressions and head rotations, further enriching the diversity of the dataset assets. 3) Rich Annotations: We provide annotations at multiple granularities, including camera parameters, matting, scans, 2D/3D facial landmarks, FLAME fits, and textual descriptions.

创建时间：

2023-05-23

搜集汇总

数据集介绍

构建方式

在数字人像合成领域，高保真头部虚拟形象的构建依赖于大规模、高质量的多模态数据。RenderMe-360数据集通过部署名为POLICY的高端采集系统，实现了对500名不同身份参与者的全方位头部数据捕获。该系统采用60台同步高分辨率工业相机，以2448×2048像素的分辨率和30帧/秒的速率，在360度水平视角和160度垂直视角范围内采集数据。数据采集流程涵盖校准捕获、表情表演、多样化发型动态记录以及双语语音材料朗读，确保了数据在几何、外观和运动维度上的丰富性。此外，通过自动化与人工协同的标注流程，为每帧数据提供了相机参数、抠像、二维与三维面部关键点、FLAME模型拟合及文本描述等多粒度注释，构建了一个涵盖超过2.43亿帧的综合性4D数字资产库。

特点

RenderMe-360数据集的核心特征体现在其高保真性、高多样性与丰富注释三个维度。高保真性源于POLICY系统的高分辨率多视角同步捕获能力，能够细致呈现头发丝、皱纹等微观结构。高多样性则通过涵盖不同年龄、种族、文化背景的500名参与者，以及每人执行的12种表情、42段双语语音和多种发型动态，确保了数据在身份、外观和运动模式上的广泛分布。注释的丰富性进一步扩展了数据集的实用性，包括每帧的相机参数、抠像掩码、动作单元标注，以及每身份的3D扫描、FLAME拟合和细粒度文本描述，为头部虚拟形象的多任务研究提供了统一且全面的支持。

使用方法

RenderMe-360数据集适用于头部虚拟形象合成领域的多项核心任务，包括新颖视角合成、表情合成、头发渲染与编辑以及语音驱动谈话头像生成。研究者可利用其多视角视频序列和相机参数，训练或评估神经辐射场等渲染模型在新视角下的重建质量。通过提供的FLAME参数和3D标注，可驱动动态表情的迁移与合成研究。数据集中丰富的发型变化和文本注释，为基于文本或图像的头发属性编辑算法提供了训练与测试基准。此外，同步的音频-视频数据支持语音驱动头像生成任务的模型开发与性能验证。数据集的标准化划分与多粒度注释，使得其能够作为综合性基准平台，推动头部虚拟形象算法在真实场景中的泛化与鲁棒性研究。

背景与挑战

背景概述

RenderMe-360数据集由上海人工智能实验室、商汤科技等机构于2023年联合推出，旨在推动高保真头部虚拟人合成领域的研究进展。该数据集构建了一个大规模的四维数字资产库，涵盖500名不同身份参与者的多视角同步视频数据，总帧数超过2.43亿。其核心研究问题聚焦于解决现有头部数据集在保真度、多样性与标注粒度方面的不足，通过高分辨率多相机系统捕捉360度头部动态表现，为神经渲染、生成模型等前沿技术提供了关键数据支撑。RenderMe-360通过丰富的多模态标注与多样化场景设计，显著提升了头部虚拟人生成、编辑与驱动等任务的实验基准，对虚拟现实、元宇宙等应用领域具有重要推动作用。

当前挑战

RenderMe-360数据集主要面临两大挑战：其一，在领域问题层面，头部虚拟人合成需兼顾高保真几何重建、动态表情合成、复杂发型渲染及多模态驱动等多元任务，现有方法在跨身份泛化、长尾分布适配及细粒度控制方面仍存在显著性能瓶颈；其二，在构建过程中，大规模多视角数据同步采集、高精度标注流水线设计及多样化身份与动作的均衡采集构成关键难点，例如复杂配饰下的几何重建、动态发丝的运动捕捉以及多语言语音数据的质量控制均需精细化的工程方案与人工校验介入。

常用场景

经典使用场景

在数字人像合成领域，RenderMe-360数据集为高保真头部虚拟形象的构建提供了关键支持。该数据集通过60台同步高分辨率相机捕获500名不同身份参与者的多视角视频序列，涵盖丰富的表情、语音及发型动态，为神经辐射场等先进渲染技术提供了大规模、高质量的4D训练数据。其经典应用场景集中于驱动头部虚拟形象的新视角合成、新表情生成及动态发型渲染等核心任务，成为评估算法在复杂真实场景下泛化能力的重要基准。

解决学术问题

RenderMe-360有效解决了头部虚拟形象研究中数据稀缺与多样性不足的学术难题。传统数据集往往受限于样本规模小、身份单一、模态不全或注释粒度粗糙，难以支撑全头部级别的多任务联合探索。该数据集以超过2.43亿帧的高保真图像、跨年龄、种族、文化的多样性样本，以及从相机参数到FLAME拟合的丰富注释，为头部重建、动态合成、跨模态生成等研究方向提供了统一且全面的数据基础，显著推动了高保真数字人像合成技术的边界拓展。

衍生相关工作

基于RenderMe-360的丰富数据与基准测试，已衍生出一系列经典研究工作。在神经渲染方向，该数据集被用于验证如KeypointNeRF等泛化性新视角合成方法的鲁棒性；在动态虚拟形象构建中，PointAvatar等显式-隐式混合表示方法依托其多表情序列实现了高精度4D重建；此外，HairCLIP等文本驱动发型编辑模型利用其细粒度文本注释探索了跨模态控制能力。这些工作共同推动了头部虚拟形象合成技术向更高保真度、更强可控性的方向发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集